一文了解阿里云对象存储OSS

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 对象存储OSS是什么? 对象存储服务(Object Storage Service,简称 OSS),以 HTTP RESTful API 的形式对外提供服务,是阿里云提供的海量、安全、低成本、高可靠的云存储服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种存储类型供选择,全面覆盖从热到冷的各种数据,优化存储成本。其数据可靠性不低于 99.9999999999%(12 个 9),服务可用性

对象存储OSS是什么?

对象存储服务(Object Storage Service,简称 OSS),以 HTTP RESTful API 的形式对外提供服务,是阿里云提供的海量、安全、低成本、高可靠的云存储服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种存储类型供选择,全面覆盖从热到冷的各种数据,优化存储成本。其数据可靠性不低于 99.9999999999%(12 个 9),服务可用性不低于 99.995%

 

 

对象存储OSS能做什么?

OSS 具有与平台无关的 RESTful API 接口,可以在任何应用、任何时间、任何地点存储和访问任意类型的数据。


image.png

阿里云-云存储产品生态

 

 

 

对象存储OSS与传统存储有哪些区别?

SAN(块存储) 和 NAS(文件存储)都是面向数据中心内访问的设备,而OSS(对象存储)产生的目的根本就不是在数据中心内使用,而是面向互联网、移动互联网(3G、4G、5G)而产生的,为大量使用的网页、视频、图片、音频、文档访问而设计。

 

image

源自:对象存储 OSS 的智能数据分析处理框架

 

 

 

对象存储OSS有哪些功能?

多种存储类型

支持数据冷热分层,提供更具性价比的存储方式

  • 数据冷热分层维度
    • 提供标准型、低频型、归档型以及冷归档型四种存储类型,满足不同场景的数据存储,了解存储类型详情
  • 数据冗余维度
    • 提供同城区域冗余ZRS、本地冗余LRS类型;ZRS,将数据冗余存放在多个可用区,具备机房级容灾能力;LRS,将数据冗余存放在同一可用区的多个设备,抵御硬盘/存储服务器级故障。

 

数据保护与安全

支持多冗余的可靠架构、完整性校验、权限控制、加密、日志审计、数据合规等,提供更可靠、更安全、更合规的对象存储

 

数据可靠

多重冗余分布式架构,有效应对各类硬件故障,消除单点隐患,提供最大12个9的数据持久性设计

 

完整性校验

存储和读取数据时,对网络流量计算CRC64校验和,检测数据包是否损坏,确保数据完整性

 

完善的权限控制

提供RAM、ACL、BucketPolicy、URL签名等多种访问控制机制,支持Bucket、Object、API级细粒度授权

 

网络访问安全防护

支持防盗链,支持通过BucketPolicy设置IP黑白名单或限制只能Https访问

 

数据加密

提供服务端加密、客户端加密的多种数据加密选项

 

日志审计

支持将OSS访问记录,按小时导出成日志文件,用于分析与审计;支持实时日志查询,结合日志服务,分钟级日志推送,秒级查询与可视化分析

 

数据合规

OSS支持WORM策略(一次写入,多次读取), 保护周期内,任何人都不能对文件进行修改和删除,满足行业合规要求。同时,阿里云通过国内外多项认证,率先将众多的合规控制点,融入云平台内控管理和产品设计中了解更多详情

 

 

企业级数据管理

支持生命周期、回源、更丰富的数据上传与下载方式、事件通知、回调等,提供更简单易用、更便于管理的对象存储

 

生命周期

可定义数据的生命周期,将符合规则的对象转换存储类型或过期清除

 

镜像回源

支持配置用户源站,当访问数据不在OSS时,OSS会从源站拉取并写入OSS

 

文件上传

支持PutObject、PostObject、MultipartUpload、AppendObject方式。其中,Append上传的文件,支持在文件末尾追加内容

 

文件下载

支持简单下载、断点续传下载,其中断点续传下载,可设置从Object指定的位置开始下载

 

云监控

对接云监控,支持OSS基础服务指标、性能指标和计量指标的监控

 

事件通知

支持事件通知,OSS上Object相关操作可触发事件通知,用户可设置触发器,以执行各种操作

 

实时日志

支持导出访问日志到用户Bucket,也可结合日志服务,对OSS访问记录实时查询、可视化分析,满足企业运维审计、业务分析等需求

 

数据处理能力

支持图片、文档、视频、CSV等数据的常用处理和分析能力,提供更智能的对象存储

 

图片处理

支持jpg、png、bmp、gif、webp、tiff等格式的转换,以及缩略图、剪裁、水印、缩放等多种操作

 

视频截帧

支持截取出视频中的指定位置生成图片,完成视频截帧

 

文档预览

支持对ppt、xls、doc、pdf 等格式文档进行在线预览

 

标签识别

支持图片场景标签识别,如交通工具、电子产品、常用物品、饮食等,支持分层标签

 

人脸识别

支持图片中多张人脸的位置与属性检测,如性别、年龄、情绪、头部姿势、眼睛状态、模糊度等

 

OSS Select

支持通过SQL选取CSV、JSON文件内容,而无需下载整个文件再分析,可为大数据应用提速

 

 

数据生态丰富

支持对接开源生态、阿里云丰富的计算产品、数据管理产品,帮助客户释放数据更大的业务价值

 

开源生态

中国首家被Hadoop官方社区支持的云存储,可对接丰富的开源生态。用户可通过Logstash、Flume将日志投递到OSS,可在Hadoop、Spark、Hive、Impala、Flink、Presto中访问OSS,通过计算存储分离架构,将温数据、冷

数据存储在OSS。

 

计算产品对接

OSS无缝对接阿里云日志服务、EMR、DataLakeAnalytics、函数计算、批量计算、MaxCompute,满足用户日志投递、离线处理、交互式查询、Severless触发计算、批量计算等场景需求。

 

数据管理生态

支持通过阿里云DBS,将各类数据库备份到OSS;通过数据集成,将数据导入到OSS;通过阿里云混合云存储阵列结合云上OSS,可实现本地和云端存储空间的无缝结合。

 

 

大规模数据迁移

支持PB级的在线、离线迁移方案,完成中国互联网首个单客户百PB级数据的迁移上云案例,提供更安全、更快速海量数据迁移上云方案

 

离线数据迁移

闪电立方可将用户线下数据,安全、高效的迁移到OSS,提供端到端的加密机制,支持TB到PB级数据迁移上云

 

在线数据迁移

用户可使用阿里云在线数据迁移服务、OSSImport工具,将第三方云存储、自建线下存储等各类数据,在线迁移到OSS,支持TB至PB级数据迁移到OSS

 

HDFS数据迁移

通过Hadoop对OSS的支持,用户可以在自建的Hadoop集群或通过阿里云EMR,将HDFS中大规模的数据迁移到OSS

 

 

 

对象存储OSS有哪些技术优势?

对象存储设置之初便是面向网络、海量数据的高可靠、高可用、可弹性扩容的公共服务

image.png

设计目标

 

任意大小数据对象存储

  • 单个对象最大可存48TB
    • Normal (0~5GB)
    • Multipart(0~48.8TB)
    • Appendable(0~5GB)
  • 针对移动场景的调优
    • 断点续传
    • Multipart Part最小可以到100KB
  • Append
    • 满足边写边读

 

海量存储

  • 可线性扩展
  • 万台单集群

 

弹性扩容

能够自适应业务数据快速增长,避免出现存储空间被打爆,通过业界领先的资源供应链管理、软件分布式弹性设计,实现 百 EB 级空间、百万亿级对象规模 能力

 

高可靠性

指在硬盘、服务器、网络等故障情况下,以及火灾、地震、洪水等灾害时,可以有效防止数据丢失,通过跨机机柜、机房、区域的数据冗余,实现了99.9999999999%(12 个 9)的高可靠性

image.png

  • 同城冗余存储(3AZ),实现 RPO 为 0 的容灾能力。基于遵守 PAXOS 的一致性协议、精妙设计的 AZ 间带宽和时延、以及数据分片的策略,保证了 AZ 故障后的快速切换,零数据丢失。经过蚂蚁主站(支付宝账单、刷脸类业务)、网商银行、淘宝短视频、天猫大屏等的业务打磨,检验了 3AZ 的能力,得到了广泛认可。
  • 跨区域复制2.0,实现 RPO 为秒级~分钟级的容灾能力。新版本的复制,在性能优化、用户隔离、依赖解藕方面,做了针对性设计优化,提高了复制的能力。同时,针对云客户在同城两数据中心场景下,实现 OSS 的桶能够跨两数据中心保存数据的需求,开发了 OSS 双集群同城容灾 特性。

 

高可用性

指在服务器故障时、光纤挖断时,可自动切换实现业务连续性,通过容错设计,实现了 99.995% 的可用性

 

安全存储

指数据访问的认证、授权、加密、以及行业法规遵从,支持多项合规认证,比如 KMS 加密、WORM 认证等

image.png

 

自动生命管理

支持冷热数据的管理,优化 TCO,提供标准、低频、归档存储,并自动化迁移,优化存储使用成本。

 

公共服务

  • 多租户
  • 隔离
  • QoS

 

 

对象存储OSS有哪些产品优势?

稳定可靠

OSS作为阿里巴巴全集团数据存储的核心基础设施,多年支撑双十一业务高峰,历经高可用与高可靠的严苛考验。OSS的多重冗余架构设计,为数据持久存储提供可靠保障。同时,OSS基于高可用架构设计,消除单节故障,确保数据业务的持续性。

image

安全合规

支持服务端加密、客户端加密、防盗链、IP黑白名单、细粒度权限管控、日志审计、WORM特性,并获得多项合规认证,包括SEC、FINRA等,满足企业数据安全与合规要求。

image

智能存储

提供多种数据处理能力,如图片处理、视频截帧、文档预览、图片场景识别、人脸识别、SQL就地查询等,并无缝对接Hadoop生态、以及阿里云函数计算、EMR、DataLakeAnalytics、BatchCompute、MaxCompute、DBS等产品,满足企业数据分析与管理的需求。

image

数据分层

提供标准、低频、归档以及冷归档多种类型,通过生命周期自动化实现数据类型转换与过期管理,覆盖从热到冷多种存储场景。

image

 

方便易用

提供RESTFul API、控制台、多种开发语言的SDK、命令行工具、图形化工具等多种使用方式,可以随时随地通过网络管理数据。

image

 

弹性扩容

支持按量付费模式,按实际使用量付费,无需提前一次性投入。同时,自动弹性扩展,不限用户存储的容量和文件数目,满足EB级海量存储需求。

image

 

 

 

对象存储OSS有哪些基本概念?

存储空间(Bucket)

用于存储对象(Object)的容器,同一个存储空间的内部是扁平的,没有文件系统的目录等概念,所有的对象都必须隶属于某个存储空间。存储空间具有各种配置属性,包括地域、访问权限、存储类型等。可根据实际需求,创建不同存储空间存储不同数据。

 

对象/文件(Object)

是 OSS 存储数据的基本单元,也被称为 OSS 的文件。对象由元信息(Object Meta)、用户数据(Data)和文件名(Key)组成。对象由存储空间内部唯一的 Key 来标识。对象元信息是一组键值对,表示了对象的一些属性,比如最后修改时间、大小等信息,支持在元信息中存储一些自定义的信息。对象的生命周期是从上传成功到被删除为止

 

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
4月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
3月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
4月前
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python和阿里云SDK读取OSS中的文件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 运维 安全
阿里云OSS的优势
【7月更文挑战第19天】阿里云OSS的优势
178 2
|
4月前
|
存储 API 开发工具
阿里云OSS
【7月更文挑战第19天】阿里云OSS
164 1
|
4月前
|
存储 弹性计算 对象存储
预留空间是什么?阿里云OSS对象存储预留空间说明
阿里云OSS预留空间是预付费存储产品,提供折扣价以锁定特定容量,适用于抵扣有地域属性的Bucket标准存储费用及ECS快照费。通过购买预留空间,如500GB通用预留+100GB标准-本地冗余存储包,用户可优化成本。
181 4
|
4月前
|
人工智能 对象存储
【阿里云AI助理】自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
124 1
|
5月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
|
6月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56589 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用