《阿里云产品四月刊》—CPFS 智算版数据流动(3)

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

本文来源于阿里云社区电子书《阿里云产品四月刊》


《阿里云产品四月刊》—CPFS 智算版数据流动(2)https://developer.aliyun.com/article/1554196


创建数据流动任务

 

 

  • 在左侧导航栏,选择文件系统>文件系统列表。

 

  • 在顶部菜单栏,选择地域。

 

  • 在文件系统列表页面,单击目标 CPFS 智算版文件系统名称。

 

  • 在文件系统详情页面,单击数据流动。

 

  • 在数据流动页面,找到目标数据流动,单击任务管理。

 

  • 在任务管理面板,单击创建任务。

 

  • 在创建任务面板,您可以创建不同类型的任务并配置任务详情。

 

 

导入数据

 

  • Symlink 类型的文件导入到 CPFS 后, 会转变为包含数据的普通文件, 并丢失Symlink 信息。

 

  • 如果 OSS Bucket 存在多个版本,则只复制最新的版本。

 

  • 不支持长度大于 255 字节的文件名或子目录名。

 

  • 当文件名和文件子目录发生冲突时,在 CPFS 文件系统中会出现对象冲突的情况, 只能确保其中一个操作成功,而另一个则会失败。

 

 

 

配置项

 

说明

导入数据类型

 

支持数据+元数据类型。表示同时导入文件的数据块及元数据。

 

导入文件

选择数据流动任务执行的目录或文件列表。

导入 OSS 此目录下所有文件:指定 OSS 目录必须以正斜线(/)头和结尾。

 

 

 

 

 

冲突策略

 

当 CPFS 智算版文件系统与 OSS Bucket 存在同名文件时的处理策略。

保持最新:同名文件比较更新时间,保持更新的版本。OSS 采用修改时间,CPFS 采用修改时间。

跳过同名文件:忽略同名文件不进行同步。

覆盖同名文件:将同名文件覆盖为 CPFS 端版本。

 

 

导出数据

 

  • Symlink 类型的文件在同步到 OSS 后,不会同步 Symlink 所指向的文件,而是会变成一个普通的无数据空白对象。

 

  • Hardlink 类型的文件仅作为普通文件同步到 OSS

 

  • 不支持 SocketDevicePipe 类型的文件导出到 OSS Bucket

 

  • 不支持长度大于 1023 字符的目录路径。

 

 

 

配 置项

 

说明

 

导 出文件

选择数据流动任务执行的目录或者文件列表。

导出 CPFS 此目录下所有文件:目录必须以正斜线(/)开头和结尾,且是该目录在 CPFS 智算版文件系统中的路径。

 

 

 

 

冲 突策略

 

当 CPFS 智算版文件系统与 OSS Bucket 存在同名文件时的处理策略。保持最新:同名文件比较更新时间(即 mtime),保持更新的版本。跳过同名文件:忽略同名文件不进行同步。

覆盖同名文件:将同名文件覆盖为 CPFS 端版本。

 

  • 单击确定。

 

 

查看任务报告

 

  • 当数据流动任务运行失败后,系统将生成一份失败任务报告,您可以在控制台上下  载该报告并排查失败原因。

 

 

  • 在左侧导航栏,选择文件系统>文件系统列表。

 

  • 在顶部菜单栏,选择地域。

 

  • 在文件系统列表页面,单击目标文件系统名称。

 

  • 在文件系统详情页面,单击数据流动。

 

  • 在数据流动页签,找到目标数据流动,单击任务管理。

 

  • image.png 在任务管理面板在需要查看任务报告的操作列 > 报告

 

  • 获取目标任务报告的详细路径并下载。

 

  • 说明

 

  • 若未显示报告或无法根据报告排查失败原因,请联系 CPFS 技术支持进行咨询。点击加入技术支持群建议使用 Chrome 打开或搜索公开群组并加入,钉钉群号:26570026011

 

  • 打开下载的文件,并在表格的 reason 列查看失败原因。

 

相关操作

 

 

 

操作

 

说明

 

步骤

 

 

 

 

您可以通过控制台查看数据流动任务的配置及运行状态。

 

在数据流动页签,单击创建数据流动。

在任务管理面板,查看目标任务详情。

 

 

 

 

您可以在控制台取消运行中的数据流动任务。

 

在数据流动页签,单击创建数据流动。

在任务管理面板,找到目标任务,单击取消。

确认待取消的任务,单击确定。

 

 

 

 

 

 

您可以通过复制任务重复执行之前已经执行过的任务。

 

在数据流动页签,单击创建数据流动。

在任务管理面板,找到目标任务,选择。

确认待复制的任务,单击确定。

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
存储 人工智能 弹性计算
|
存储 NoSQL 文件存储
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
300 2
|
Cloud Native 文件存储 数据库
《阿里云产品四月刊》—CPFS 智算版数据流动(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
273 1
|
Cloud Native 对象存储 文件存储
《阿里云产品四月刊》—CPFS 智算版数据流动(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
309 0
|
存储 人工智能 自动驾驶
高性能存储CPFS在AIGC场景的具体应用
高性能存储CPFS在AIGC场景的具体应用
|
存储 资源调度 分布式计算
LC3|视角 开源大数据生态下的高性能分布式文件系统
## 背景介绍 盘古是阿里云自主研发的高可靠、高可用、高性能分布式文件系统,距今已经有将近10年的历史。盘古1.0作为阿里云的统一存储核心,稳定高效的支撑着阿里云ECS、NAS、OSS、OTS、ODPS、ADS等多条业务线的迅猛发展。但最近几年,基于如下两方面的原因,盘古还是重新设计实现了第二代存储引擎盘古2.0,其不只为阿里云,也为集团、蚂蚁金服的多种业务提供了更佳优异的存储服务 #
3587 0
|
10月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
543 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
存储 文件存储 对象存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
AI 场景下,函数计算 GPU 实例模型存储最佳实践
306 0
|
存储 网络协议 容灾
降低存储网络55% 延迟!阿里云存储论文入选计算机顶会
凭借在规模化部署和应用模型上的创新,阿里云存储团队发表的技术论文《Deploying User-space TCP at Cloud Scale with LUNA》被 USENIX ATC'23 收录。
1897 4
降低存储网络55% 延迟!阿里云存储论文入选计算机顶会
|
存储 缓存 人工智能
深度解析CPFS 在 LLM 场景下的高性能存储技术
本文深入探讨了CPFS在大语言模型(LLM)训练中的端到端性能优化策略,涵盖计算端缓存加速、智能网卡加速、数据并行访问及数据流优化等方面。重点分析了大模型对存储系统的挑战,包括计算规模扩大、算力多样性及数据集增长带来的压力。通过分布式P2P读缓存、IO加速、高性能存算通路技术以及智能数据管理等手段,显著提升了存储系统的吞吐量和响应速度,有效提高了GPU利用率,降低了延迟,从而加速了大模型的训练进程。总结了CPFS在AI训练场景中的创新与优化实践,为未来大模型发展提供了有力支持。