《阿里云产品四月刊》—CPFS 智算版数据流动(1)

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

本文来源于阿里云社区电子书《阿里云产品四月刊》


CPFS 智算版数据流动

 

  • CPFS 智算版多租支持与 OSS 数据流动,支持手动导入和导出

 

  • 支持 CPFS 智算版文件系统与 OSS 之间的数据导入和导出,单文件导入吞吐最大60MB/s,多文件导入吞吐最大为 5GB/s,单文件导出吞吐最大为 300MB/s,多文件导出吞吐最大为 3GB/s

 

  1. 数据流动概述

CPFS 智算版文件系统与对象存储 OSS 之间已实现数据流动。您可以通过创建数据流动任务实现不同源端的数据同步。

 

背景信息

 

当 CPFS 智算版文件系统中的目录与 OSS Bucket 创建数据流动后,通过创建数据流动任务,可以完成数据的高速传输。传输完成后,您能通过高性能且 POSIX 兼容的文件接口快速地处理 OSS 中的数据。同时,CPFS 智算版支持通过文件存储控制台或 OpenAPI 将数据导出至 OSS Bucket。

 

  • 目录级别的数据流动

 

您可以通过创建数据流动,建立从 CPFS 智算版文件系统任意子目录到 OSS Bucket 下任意 prefix 的映射,实现更细粒度的权限控制与更灵活的数据传输。

 

  • 数据的导入与导出

 

您可以创建数据流动任务实现 CPFS 智算版文件系统与 OSS 之间的数据导入和导出,以便在计算任务开始前将数据同步至高性能的 CPFS 智算版文件系统上。如果任务执行失败,您可以通过任务报告检查失败原因。

 

重要

CPFS 智算版会将 File Modification timestamps 属性导出到 OSS Bucket 的自定义元数据中,其命名为 x-oss-meta-hbr-buckup-mtime,不能删除或修改,否则文件系统中的 File Modification timestamps 属性会错误。

 

使用限制

 

  • 数据流动

 

  • CPFS 智算版 2.4.0 及以上版本支持数据流动。
  • 单个 CPFS 智算版文件系统最多支持创建 10 个数据流动。
  • 单个 CPFS 智算版文件系统的文件路径只能与一个 OSS Bucket 链接。
  • CPFS 智算版文件系统不支持与其他区域的 OSS Bucket 创建数据流动。

 

  • 数据流动对文件系统的限制

 

  • 在数据流动关联的文件系统路径中,不可对非空目录执行重命名操作,否则报 Permission Denied 或者目录非空。
  • 目录、文件名中的特殊字符需要谨慎使用,支持大小写字母、数字、感叹号!)短划线(-)、下划线(_)、半角句号(.)、星号(*)和半角圆括号(())
  • 不支持超长路径,数据流动支持的路径最大长度是 1023 字符。

 

  • 数据流动导入限制

 

  • Symlink 类型的文件导入到 CPFS 智算版后,会转变为包含数据的普通文件,并丢失 Symlink 信息。

 

  • 如果 OSS Bucket 存在多个版本,则只复制最新的版本。
  • 不支持长度大于 255 字节的文件名或子目录名。

 

  • 数据流动导出限制

 

  • Symlink 类型的文件在同步到 OSS 后,不会同步 Symlink 所指向的文件,而是会变成一个普通的无数据空白对象。
  • Hardlink 类型的文件仅作为普通文件同步到 OSS
  • SocketDevicePipe 类型的文件导出到 OSS Bucket 时,会变成一个普通的无数据空白对象。
  • 不支持长度大于 1023 字符的目录路径。

 

 

使用流程

 

 

 

 

性能指标

 

 

指标

 

说明

GB

以 上

单文件导入吞吐最大为 60 MB/s。

 

 

 

多文件导入吞吐最大为 5 GB/s。

 

说明

实际的吞吐能力会受到OSS 带宽和CPFS 智算版带宽的限制, 也会受到文件大小、文件数、数据量的影响。关于 OSS 的带宽能力,请参见带宽;关于 CPFS 智算版的吞吐能力,请参产品规格

MB 

每 秒

 

 

单目录、多目录导入:1000。

 

 

 

 

 

 

 

GB

以 上

单文件导出吞吐最大为 300 MB/s。

多文件导出吞吐最大为 3 GB/s。

 

说明

实际的吞吐能力会受到OSS 带宽和CPFS 智算版带宽的限制, 也会受到文件大小、文件数、数据量的影响。关于 OSS 的带宽能力,请参见带宽;关于 CPFS 智算版的吞吐能力,请参产品规格

MB 

每 秒

 

 

单目录、多目录导出:1200。

 

 

 

  1. 管理数据流动

在实现 CPFS 智算版文件系统与 OSS Bucket 之间的数据流动之前,需要确保已经创建了对应的数据流动。本文介绍如何在文件存储控制台创建并管理 CPFS 智算版数据流动。

 

前提条件

 

  • 源端 OSS Bucket 已设置标签(key: cpfs-dataflow, value: true)。在数据流动的使用过程中,不能删除和修改该标签,否则 CPFS 智算版文件系统数据流动无法访Bucket 的数据。更多信息,请参见 OSS Bucket 设置标签

 

  • 如果多个 CPFS 智算版文件系统的数据流动,或者同一个 CPFS 智算版文件系统的多个数据流动的源端存储是同一个 OSS Bucket,为了防止多个数据流动向同一个OSS Bucket 导出数据时产生数据冲突,需要该 OSS Bucket 开启版本控制。更多信息,请参见版本控制介绍

 

《阿里云产品四月刊》—CPFS 智算版数据流动(2)https://developer.aliyun.com/article/1554196

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
存储 人工智能 弹性计算
|
存储 NoSQL 文件存储
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
283 2
|
Cloud Native 对象存储 文件存储
《阿里云产品四月刊》—CPFS 智算版数据流动(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
293 0
|
Cloud Native 文件存储 对象存储
《阿里云产品四月刊》—CPFS 智算版数据流动(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
202 0
《阿里云产品四月刊》—CPFS 智算版数据流动(3)
|
5月前
|
安全 网络性能优化 网络虚拟化
网络交换机分类与功能解析
接入交换机(ASW)连接终端设备,提供高密度端口与基础安全策略;二层交换机(LSW)基于MAC地址转发数据,构成局域网基础;汇聚交换机(DSW)聚合流量并实施VLAN路由、QoS等高级策略;核心交换机(CSW)作为网络骨干,具备高性能、高可靠性的高速转发能力;中间交换机(ISW)可指汇聚层设备或刀片服务器内交换模块。典型流量路径为:终端→ASW→DSW/ISW→CSW,分层架构提升网络扩展性与管理效率。(238字)
1338 0
|
缓存 NoSQL 调度
Tair:基于KV缓存的推理加速服务
Tair 是阿里云基于KV缓存的推理加速服务,旨在优化大模型推理过程中的性能与资源利用。内容分为三部分:首先介绍大模型推理服务面临的挑战,如性能优化和服务化需求;其次讲解Nvidia TensorRT-LLM推理加速库的特点,包括高性能、功能丰富和开箱即用;最后重点介绍基于KVCache优化的推理加速服务,通过Tair的KV缓存技术提升推理效率,特别是在处理长上下文和多人对话场景中表现出色。整体方案结合了硬件加速与软件优化,实现了显著的性能提升和成本降低。
1192 3
|
11月前
|
存储 人工智能 缓存
AI变革药物研发:深势科技的云原生实践之路
阿里云助力深势科技推出创新的玻尔Bohrium®科研云平台和Hermite®药物计算设计平台,并持续完善。这两项先进的工业设计与仿真基础设施成果通过AI技术赋能科学研究和工业研发,不仅大幅缩短了药物研发周期,降低了成本,还显著提高了研发成功率,为生物医药行业带来了前所未有的变革,这是AI for Science领域的重大突破。
730 38
|
存储 人工智能 安全
CPFS深度解析:并行文件存储加速AI创新
在生成式AI的大潮中,并行文件系统作为高性能数据底座,为AI算力提供高吞吐、低延迟的数据存储服务。在本话题中,我们将介绍阿里云并行文件存储CPFS针对AI智算场景而提供的产品能力演进与更新,深入讲解在性能、成本、稳定、安全等方面的技术创新。
1265 0
|
SQL 监控 关系型数据库
MySQL如何优雅的执行DDL
在MySQL中优雅地执行DDL操作需要综合考虑性能、锁定和数据一致性等因素。通过使用在线DDL工具、分批次执行、备份和监控等最佳实践,可以在保障系统稳定性的同时,顺利完成DDL操作。本文提供的实践和案例分析为安全高效地执行DDL操作提供了详细指导。
587 14
|
自然语言处理 监控 Java
ES学习知识体系梳理与实战应用
【11月更文挑战第13天】Elasticsearch(简称ES)是一个开源的、高扩展的分布式全文搜索引擎,广泛应用于日志分析、实时监控、全文搜索等场景。作为架构师,掌握ES的学习知识体系和实战应用至关重要。本文将从ES的背景、概念、工具、知识点、部署、实战、Java开发、分布式节点、底层逻辑以及分词分类等方面进行详细梳理和介绍,帮助初学者逐步掌握ES技术。
303 1