《阿里云产品四月刊》—CPFS 智算版数据流动(1)

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,标准 - 同城冗余存储 20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
简介: 阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

本文来源于阿里云社区电子书《阿里云产品四月刊》


CPFS 智算版数据流动

 

  • CPFS 智算版多租支持与 OSS 数据流动,支持手动导入和导出

 

  • 支持 CPFS 智算版文件系统与 OSS 之间的数据导入和导出,单文件导入吞吐最大60MB/s,多文件导入吞吐最大为 5GB/s,单文件导出吞吐最大为 300MB/s,多文件导出吞吐最大为 3GB/s

 

  1. 数据流动概述

CPFS 智算版文件系统与对象存储 OSS 之间已实现数据流动。您可以通过创建数据流动任务实现不同源端的数据同步。

 

背景信息

 

当 CPFS 智算版文件系统中的目录与 OSS Bucket 创建数据流动后,通过创建数据流动任务,可以完成数据的高速传输。传输完成后,您能通过高性能且 POSIX 兼容的文件接口快速地处理 OSS 中的数据。同时,CPFS 智算版支持通过文件存储控制台或 OpenAPI 将数据导出至 OSS Bucket。

 

  • 目录级别的数据流动

 

您可以通过创建数据流动,建立从 CPFS 智算版文件系统任意子目录到 OSS Bucket 下任意 prefix 的映射,实现更细粒度的权限控制与更灵活的数据传输。

 

  • 数据的导入与导出

 

您可以创建数据流动任务实现 CPFS 智算版文件系统与 OSS 之间的数据导入和导出,以便在计算任务开始前将数据同步至高性能的 CPFS 智算版文件系统上。如果任务执行失败,您可以通过任务报告检查失败原因。

 

重要

CPFS 智算版会将 File Modification timestamps 属性导出到 OSS Bucket 的自定义元数据中,其命名为 x-oss-meta-hbr-buckup-mtime,不能删除或修改,否则文件系统中的 File Modification timestamps 属性会错误。

 

使用限制

 

  • 数据流动

 

  • CPFS 智算版 2.4.0 及以上版本支持数据流动。
  • 单个 CPFS 智算版文件系统最多支持创建 10 个数据流动。
  • 单个 CPFS 智算版文件系统的文件路径只能与一个 OSS Bucket 链接。
  • CPFS 智算版文件系统不支持与其他区域的 OSS Bucket 创建数据流动。

 

  • 数据流动对文件系统的限制

 

  • 在数据流动关联的文件系统路径中,不可对非空目录执行重命名操作,否则报 Permission Denied 或者目录非空。
  • 目录、文件名中的特殊字符需要谨慎使用,支持大小写字母、数字、感叹号!)短划线(-)、下划线(_)、半角句号(.)、星号(*)和半角圆括号(())
  • 不支持超长路径,数据流动支持的路径最大长度是 1023 字符。

 

  • 数据流动导入限制

 

  • Symlink 类型的文件导入到 CPFS 智算版后,会转变为包含数据的普通文件,并丢失 Symlink 信息。

 

  • 如果 OSS Bucket 存在多个版本,则只复制最新的版本。
  • 不支持长度大于 255 字节的文件名或子目录名。

 

  • 数据流动导出限制

 

  • Symlink 类型的文件在同步到 OSS 后,不会同步 Symlink 所指向的文件,而是会变成一个普通的无数据空白对象。
  • Hardlink 类型的文件仅作为普通文件同步到 OSS
  • SocketDevicePipe 类型的文件导出到 OSS Bucket 时,会变成一个普通的无数据空白对象。
  • 不支持长度大于 1023 字符的目录路径。

 

 

使用流程

 

 

 

 

性能指标

 

 

指标

 

说明

GB

以 上

单文件导入吞吐最大为 60 MB/s。

 

 

 

多文件导入吞吐最大为 5 GB/s。

 

说明

实际的吞吐能力会受到OSS 带宽和CPFS 智算版带宽的限制, 也会受到文件大小、文件数、数据量的影响。关于 OSS 的带宽能力,请参见带宽;关于 CPFS 智算版的吞吐能力,请参产品规格

MB 

每 秒

 

 

单目录、多目录导入:1000。

 

 

 

 

 

 

 

GB

以 上

单文件导出吞吐最大为 300 MB/s。

多文件导出吞吐最大为 3 GB/s。

 

说明

实际的吞吐能力会受到OSS 带宽和CPFS 智算版带宽的限制, 也会受到文件大小、文件数、数据量的影响。关于 OSS 的带宽能力,请参见带宽;关于 CPFS 智算版的吞吐能力,请参产品规格

MB 

每 秒

 

 

单目录、多目录导出:1200。

 

 

 

  1. 管理数据流动

在实现 CPFS 智算版文件系统与 OSS Bucket 之间的数据流动之前,需要确保已经创建了对应的数据流动。本文介绍如何在文件存储控制台创建并管理 CPFS 智算版数据流动。

 

前提条件

 

  • 源端 OSS Bucket 已设置标签(key: cpfs-dataflow, value: true)。在数据流动的使用过程中,不能删除和修改该标签,否则 CPFS 智算版文件系统数据流动无法访Bucket 的数据。更多信息,请参见 OSS Bucket 设置标签

 

  • 如果多个 CPFS 智算版文件系统的数据流动,或者同一个 CPFS 智算版文件系统的多个数据流动的源端存储是同一个 OSS Bucket,为了防止多个数据流动向同一个OSS Bucket 导出数据时产生数据冲突,需要该 OSS Bucket 开启版本控制。更多信息,请参见版本控制介绍

 

《阿里云产品四月刊》—CPFS 智算版数据流动(2)https://developer.aliyun.com/article/1554196

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
存储 NoSQL 文件存储
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
242 2
|
存储 人工智能 弹性计算
|
Cloud Native 对象存储 文件存储
《阿里云产品四月刊》—CPFS 智算版数据流动(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
264 0
|
Cloud Native 文件存储 对象存储
《阿里云产品四月刊》—CPFS 智算版数据流动(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
182 0
《阿里云产品四月刊》—CPFS 智算版数据流动(3)
|
6月前
|
存储 负载均衡 API
如何选择合适的API提供商?
选择合适的API提供商对项目运行和业务发展至关重要。需明确业务需求,考察技术实力与服务质量,评估数据安全及隐私保护能力,考虑成本效益与性价比,检查文档和支持资源,试用评估性能,参考客户案例与口碑,确保服务协议明确。综合以上标准,可选出满足需求的可靠合作伙伴。
96 1
|
9月前
|
存储 人工智能 缓存
AI变革药物研发:深势科技的云原生实践之路
阿里云助力深势科技推出创新的玻尔Bohrium®科研云平台和Hermite®药物计算设计平台,并持续完善。这两项先进的工业设计与仿真基础设施成果通过AI技术赋能科学研究和工业研发,不仅大幅缩短了药物研发周期,降低了成本,还显著提高了研发成功率,为生物医药行业带来了前所未有的变革,这是AI for Science领域的重大突破。
568 38
|
6月前
|
敏捷开发 监控 数据可视化
协作效率的底线:在繁杂数据中寻求突破
在信息过载的时代,看板工具通过可视化任务流转提升团队效率。其核心思维包括可视化、聚焦限制(WIP)与持续流动,帮助优化工作流。文章解析了五款常用工具:Trello适合轻量协作,Asana提供多种视图,ClickUp应对复杂项目,Monday.com强调定制化,板栗看板则本地化友好。根据团队类型与需求,如初创团队追求易用性可选Trello或板栗看板,技术团队需深度支持可选Jira或ClickUp,综合管理部门则适合Monday.com以实现多维度监控。
69 0
|
8月前
|
监控 算法 中间件
《揭秘性能测试:找准系统瓶颈的实用指南》
在软件开发中,性能测试与瓶颈分析是确保系统高效稳定运行的核心手段。性能测试通过模拟真实场景评估系统在不同负载下的表现,涵盖负载、压力、并发及耐久性测试等多个方面。这些测试帮助发现系统的性能极限与潜在问题,为优化提供依据。性能瓶颈可能源于硬件(如CPU、内存)或软件(如代码效率、数据库配置),需综合监控、日志分析和专业工具定位问题。针对瓶颈采取优化措施,如升级硬件、优化算法、调整数据库索引或改进系统架构,可显著提升性能。持续关注性能并进行优化,是保障用户体验与系统竞争力的关键。
207 1
|
11月前
|
缓存 NoSQL 调度
Tair:基于KV缓存的推理加速服务
Tair 是阿里云基于KV缓存的推理加速服务,旨在优化大模型推理过程中的性能与资源利用。内容分为三部分:首先介绍大模型推理服务面临的挑战,如性能优化和服务化需求;其次讲解Nvidia TensorRT-LLM推理加速库的特点,包括高性能、功能丰富和开箱即用;最后重点介绍基于KVCache优化的推理加速服务,通过Tair的KV缓存技术提升推理效率,特别是在处理长上下文和多人对话场景中表现出色。整体方案结合了硬件加速与软件优化,实现了显著的性能提升和成本降低。
1016 3
|
编解码 数据可视化 定位技术
Android平台GB28181记录仪在铁路可视化巡检应用
GB28181记录仪在铁路可视化巡检中,集成实时音视频采集、位置上报、语音通信与无线传输技术,确保巡检高效准确。它能实时记录巡检细节,支持高清画质,并通过北斗/GPS实现精确位置追踪。记录仪兼容多种视频与音频格式,具备音量调节与编码参数配置功能,支持横竖屏及后台服务推流。此外,它还能添加动态水印,确保数据完整性,并允许指挥中心远程下载与回放历史视频,全面满足铁路巡检需求。
259 2