《阿里云产品四月刊》—CPFS 智算版数据流动(1)

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

本文来源于阿里云社区电子书《阿里云产品四月刊》


CPFS 智算版数据流动

 

  • CPFS 智算版多租支持与 OSS 数据流动,支持手动导入和导出

 

  • 支持 CPFS 智算版文件系统与 OSS 之间的数据导入和导出,单文件导入吞吐最大60MB/s,多文件导入吞吐最大为 5GB/s,单文件导出吞吐最大为 300MB/s,多文件导出吞吐最大为 3GB/s

 

  1. 数据流动概述

CPFS 智算版文件系统与对象存储 OSS 之间已实现数据流动。您可以通过创建数据流动任务实现不同源端的数据同步。

 

背景信息

 

当 CPFS 智算版文件系统中的目录与 OSS Bucket 创建数据流动后,通过创建数据流动任务,可以完成数据的高速传输。传输完成后,您能通过高性能且 POSIX 兼容的文件接口快速地处理 OSS 中的数据。同时,CPFS 智算版支持通过文件存储控制台或 OpenAPI 将数据导出至 OSS Bucket。

 

  • 目录级别的数据流动

 

您可以通过创建数据流动,建立从 CPFS 智算版文件系统任意子目录到 OSS Bucket 下任意 prefix 的映射,实现更细粒度的权限控制与更灵活的数据传输。

 

  • 数据的导入与导出

 

您可以创建数据流动任务实现 CPFS 智算版文件系统与 OSS 之间的数据导入和导出,以便在计算任务开始前将数据同步至高性能的 CPFS 智算版文件系统上。如果任务执行失败,您可以通过任务报告检查失败原因。

 

重要

CPFS 智算版会将 File Modification timestamps 属性导出到 OSS Bucket 的自定义元数据中,其命名为 x-oss-meta-hbr-buckup-mtime,不能删除或修改,否则文件系统中的 File Modification timestamps 属性会错误。

 

使用限制

 

  • 数据流动

 

  • CPFS 智算版 2.4.0 及以上版本支持数据流动。
  • 单个 CPFS 智算版文件系统最多支持创建 10 个数据流动。
  • 单个 CPFS 智算版文件系统的文件路径只能与一个 OSS Bucket 链接。
  • CPFS 智算版文件系统不支持与其他区域的 OSS Bucket 创建数据流动。

 

  • 数据流动对文件系统的限制

 

  • 在数据流动关联的文件系统路径中,不可对非空目录执行重命名操作,否则报 Permission Denied 或者目录非空。
  • 目录、文件名中的特殊字符需要谨慎使用,支持大小写字母、数字、感叹号!)短划线(-)、下划线(_)、半角句号(.)、星号(*)和半角圆括号(())
  • 不支持超长路径,数据流动支持的路径最大长度是 1023 字符。

 

  • 数据流动导入限制

 

  • Symlink 类型的文件导入到 CPFS 智算版后,会转变为包含数据的普通文件,并丢失 Symlink 信息。

 

  • 如果 OSS Bucket 存在多个版本,则只复制最新的版本。
  • 不支持长度大于 255 字节的文件名或子目录名。

 

  • 数据流动导出限制

 

  • Symlink 类型的文件在同步到 OSS 后,不会同步 Symlink 所指向的文件,而是会变成一个普通的无数据空白对象。
  • Hardlink 类型的文件仅作为普通文件同步到 OSS
  • SocketDevicePipe 类型的文件导出到 OSS Bucket 时,会变成一个普通的无数据空白对象。
  • 不支持长度大于 1023 字符的目录路径。

 

 

使用流程

 

 

 

 

性能指标

 

 

指标

 

说明

GB

以 上

单文件导入吞吐最大为 60 MB/s。

 

 

 

多文件导入吞吐最大为 5 GB/s。

 

说明

实际的吞吐能力会受到OSS 带宽和CPFS 智算版带宽的限制, 也会受到文件大小、文件数、数据量的影响。关于 OSS 的带宽能力,请参见带宽;关于 CPFS 智算版的吞吐能力,请参产品规格

MB 

每 秒

 

 

单目录、多目录导入:1000。

 

 

 

 

 

 

 

GB

以 上

单文件导出吞吐最大为 300 MB/s。

多文件导出吞吐最大为 3 GB/s。

 

说明

实际的吞吐能力会受到OSS 带宽和CPFS 智算版带宽的限制, 也会受到文件大小、文件数、数据量的影响。关于 OSS 的带宽能力,请参见带宽;关于 CPFS 智算版的吞吐能力,请参产品规格

MB 

每 秒

 

 

单目录、多目录导出:1200。

 

 

 

  1. 管理数据流动

在实现 CPFS 智算版文件系统与 OSS Bucket 之间的数据流动之前,需要确保已经创建了对应的数据流动。本文介绍如何在文件存储控制台创建并管理 CPFS 智算版数据流动。

 

前提条件

 

  • 源端 OSS Bucket 已设置标签(key: cpfs-dataflow, value: true)。在数据流动的使用过程中,不能删除和修改该标签,否则 CPFS 智算版文件系统数据流动无法访Bucket 的数据。更多信息,请参见 OSS Bucket 设置标签

 

  • 如果多个 CPFS 智算版文件系统的数据流动,或者同一个 CPFS 智算版文件系统的多个数据流动的源端存储是同一个 OSS Bucket,为了防止多个数据流动向同一个OSS Bucket 导出数据时产生数据冲突,需要该 OSS Bucket 开启版本控制。更多信息,请参见版本控制介绍

 

《阿里云产品四月刊》—CPFS 智算版数据流动(2)https://developer.aliyun.com/article/1554196

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
5月前
|
存储 NoSQL 文件存储
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
111 2
|
5月前
|
存储 人工智能 弹性计算
|
6月前
|
Cloud Native 对象存储 文件存储
《阿里云产品四月刊》—CPFS 智算版数据流动(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
103 0
|
存储 弹性计算 人工智能
阿里云文件存储NAS通用型、极速型和文件存储CPFS有什么区别?
阿里云文件存储NAS极速型NAS低时延,适合企业级时延敏感型核心业务;文件存储CPFS拥有高吞吐和高IOPS,适合高性能计算业务;通用型NAS大容量、高性价比、弹性扩展,支持低频介质,适合通用类文件共享业务。
1814 0
阿里云文件存储NAS通用型、极速型和文件存储CPFS有什么区别?
|
6月前
|
Cloud Native 文件存储 对象存储
《阿里云产品四月刊》—CPFS 智算版数据流动(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
《阿里云产品四月刊》—CPFS 智算版数据流动(3)
|
存储 人工智能 缓存
《阿里云存储手册》——文件存储CPFS
《阿里云存储手册》——文件存储CPFS
452 0
|
存储 机器学习/深度学习 编解码
阿里云文件存储CPFS实现与OSS之间数据双向便捷流动
阿里云文件存储CPFS现已支持“数据流动”特性。该功能适用于2021年9月29日以后建立的CPFS文件系统。当文件系统启用该特性后,“数据流动”功能可以实现将对象存储OSS的bucket中的数据合并入CPFS进行统一命名空间的元数据管理。用户可以手动或者通过自动Lazy-load能力,将OSS中的数据复制到CPFS中,实现通过POSIX文件接口高速访问OSS中的数据,在保持数据在OSS中低成本存储的同时,获得高性能文件访问能力,满足云上自动驾驶、机器学习、HPC等大数据计算场景的需求。
2463 0
|
存储 Kubernetes 应用服务中间件
阿里云Kubernetes CSI实践—CPFS存储卷使用
1. 前言 CPFS(Cloud Paralleled File System)是一种并行文件系统。CPFS 的数据存储在集群中的多个数据节点,并可由多个客户端同时访问,从而能够为大型高性能计算机集群提供高 IOPS、高吞吐、低时延的数据存储服务。
4681 0
阿里云Kubernetes CSI实践—CPFS存储卷使用
|
存储 人工智能 弹性计算
阿里云产品家族再添新丁:视觉AI、CPFS一体机助力企业全面上云
近日举行的2019阿里云广东峰会上,阿里云宣布推出面向混合云场景的CPFS一体机和视觉AI一体机,两款新品具备超高性能、开箱即用等特性,极大降低企业上云的周期和门槛。
549 0
阿里云产品家族再添新丁:视觉AI、CPFS一体机助力企业全面上云
|
存储 人工智能 弹性计算
云栖现场|阿里云推出混合云CPFS一体机和视觉AI一体机
12月3日消息:在今天举行的2019阿里云广东峰会上,阿里云宣布推出面向混合云场景的CPFS一体机和视觉AI一体机,两款新品具备超高性能、开箱即用等特性,极大降低企业上云的周期和门槛。
1361 0
云栖现场|阿里云推出混合云CPFS一体机和视觉AI一体机