【DSW Gallery】阿里云OSS使用指南

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 阿里云OSS是一款海量、安全、低成本、高可靠的云存储服务。您可以使用阿里云提供的API、SDK接口或者OSS迁移工具轻松地将海量数据移入或移出阿里云OSS。

直接使用

请打开阿里云OSS使用指南,并点击右上角 “ 在DSW中打开” 。

image.png


阿里云OSS

阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务。OSS具有与平台无关的RESTful API接口,您可以在任何应用、任何时间、任何地点存储和访问任意类型的数据。 您可以使用阿里云提供的API、SDK接口或者OSS迁移工具轻松地将海量数据移入或移出阿里云OSS。数据存储到阿里云OSS以后,您可以选择标准存储(Standard)作为移动应用、大型网站、图片分享或热点音视频的主要存储方式,也可以选择成本更低、存储期限更长的低频访问存储(Infrequent Access)、归档存储(Archive)、冷归档存储(Cold Archive)作为不经常访问数据的存储方式。

前提条件

快速使用

创建bucket

在OSS管理控制台创建bucket

在上传文件(Object)到OSS之前,您需要创建一个用于存储文件的存储空间(Bucket)。存储空间具有各种配置属性,包括地域、访问权限、存储类型等。您可以根据实际需求,创建不同类型的存储空间来存储不同的数据。

注意:

  • 存储空间名称在OSS范围内必须全局唯一。有关存储空间的命名规范,请参见存储空间命名
  • 存储空间创建后,其名称、所处地域、存储类型、冗余类型不支持修改。
  • 单个存储空间的容量不限制

读写OSS数据

OSS Python SDK

您可以直接使用OSS的Python API读写OSS中的数据,详情请参见OSS2 Package。PAI-DSW已预装OSS2 Python包,您可以参见如下方法读写OSS数据。

初始化sdk

AccessKey(AK)获取

config需要您当前账号的AccessKey(AK)信息。获取AK的方式,请参见 获取AccessKey

import oss2
auth = oss2.Auth('<your_AccessKey_ID>', '<your_AccessKey_Secret>')
bucket = oss2.Bucket(auth, 'http://oss-cn-beijing-internal.aliyuncs.com', '<your_bucket_name>')
参数 描述


<your_AccessKey_ID> 阿里云的AccessKey ID。


<your_AccessKey_Secret> 阿里云的AccessKey Secret。


http://oss-cn-beijing-internal.aliyuncs.com OSS域名。需要根据实例的地域选择对应的OSS域名:
  • 华北2(北京)后付费实例:oss-cn-beijing.aliyuncs.com
  • 华北2(北京)预付费实例:oss-cn-beijing-internal.aliyuncs.com
  • 华东2(上海)GPU P100实例或CPU实例:oss-cn-shanghai.aliyuncs.com
  • 华东2(上海)GPU M40实例:oss-cn-shanghai-internal.aliyuncs.com


<your_bucket_name> Bucket名称,且开头不带oss://


读写OSS数据

#读取一个完整文件。
result = bucket.get_object('<your_file_path/your_file>')
print(result.read())
#按Range读取数据。
result = bucket.get_object('<your_file_path/your_file>', byte_range=(0, 99))
#写数据至OSS。
bucket.put_object('<your_file_path/your_file>', '<your_object_content>')
#对文件进行Append。
result = bucket.append_object('<your_file_path/your_file>', 0, '<your_object_content>')
result = bucket.append_object('<your_file_path/your_file>', result.next_position, '<your_object_content>')

其中<your_file_path/your_file>表示待读写的文件路径,<your_object_content>表示待Append的内容,需要根据实际情况修改。

OSS CLI

ossutil支持在Windows、Linux、macOS等系统中运行,您可以根据实际环境下载和安装合适的版本。 PAI-DSW已预装ossutil64, 您可以参见如下方法读写OSS数据。 下载地址

初始化配置文件

AccessKey(AK)获取

config需要您当前账号的AccessKey(AK)信息。获取AK的方式,请参见 获取AccessKey

config = '''
[Credentials]
language=EN
accessKeyID={accessKeyID}
accessKeySecret={accessKeySecret}
'''.format(accessKeyID= '**your-access_id**' , accessKeySecret= '**your-access-key**')

保存到配置文件 oss.conf

import os
if os.path.exists('./oss.conf'):
    print('oss config file is already exist')
else:
    with open('./oss.conf', 'w') as f:
        f.write(config)

下载文件

!ossutil64  cp -r oss://pai-vision-data-bj/data/VOCdevkit/VOC2007/ -e oss-cn-beijing.aliyuncs.com data -c ./oss.conf

上传文件

!ossutil64  cp localfile  oss://examplebucket/destfolder/ -e oss-cn-beijing.aliyuncs.com -c ./oss.conf

文件夹同步

!ossutil64 sync localfolder/ oss://examplebucket/destfolder/ -c ./oss.conf

其中表示待读取的文件夹路径,表示写入的buckeet, 表示待写入的文件夹。

更多关于ossutil64的命令,见常用命令

OSS 客户端

ossbrowser是阿里云官方提供的OSS图形化管理工具,提供类似Windows资源管理器的功能。使用ossbrowser,您可以快速完成存储空间(Bucket)和文件(Object)的相关操作。下载地址

OSS权限管理

OSS 通过RAM策略管理Bucket的访问权限,关于RAM策略编辑器如何配置的问题,见RAM策略编辑器

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
4月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
22天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
3月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
4月前
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python和阿里云SDK读取OSS中的文件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 运维 安全
阿里云OSS的优势
【7月更文挑战第19天】阿里云OSS的优势
195 2
|
4月前
|
存储 API 开发工具
阿里云OSS
【7月更文挑战第19天】阿里云OSS
191 1
|
4月前
|
存储 弹性计算 对象存储
预留空间是什么?阿里云OSS对象存储预留空间说明
阿里云OSS预留空间是预付费存储产品,提供折扣价以锁定特定容量,适用于抵扣有地域属性的Bucket标准存储费用及ECS快照费。通过购买预留空间,如500GB通用预留+100GB标准-本地冗余存储包,用户可优化成本。
211 4
|
4月前
|
人工智能 对象存储
【阿里云AI助理】自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
129 1
|
5月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
|
6月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56597 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用