《阿里云产品四月刊》—CPFS 智算版数据流动(3)

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代

本文来源于阿里云社区电子书《阿里云产品四月刊》


《阿里云产品四月刊》—CPFS 智算版数据流动(2)https://developer.aliyun.com/article/1554196


创建数据流动任务

 

 

  • 在左侧导航栏,选择文件系统>文件系统列表。

 

  • 在顶部菜单栏,选择地域。

 

  • 在文件系统列表页面,单击目标 CPFS 智算版文件系统名称。

 

  • 在文件系统详情页面,单击数据流动。

 

  • 在数据流动页面,找到目标数据流动,单击任务管理。

 

  • 在任务管理面板,单击创建任务。

 

  • 在创建任务面板,您可以创建不同类型的任务并配置任务详情。

 

 

导入数据

 

  • Symlink 类型的文件导入到 CPFS 后, 会转变为包含数据的普通文件, 并丢失Symlink 信息。

 

  • 如果 OSS Bucket 存在多个版本,则只复制最新的版本。

 

  • 不支持长度大于 255 字节的文件名或子目录名。

 

  • 当文件名和文件子目录发生冲突时,在 CPFS 文件系统中会出现对象冲突的情况, 只能确保其中一个操作成功,而另一个则会失败。

 

 

 

配置项

 

说明

导入数据类型

 

支持数据+元数据类型。表示同时导入文件的数据块及元数据。

 

导入文件

选择数据流动任务执行的目录或文件列表。

导入 OSS 此目录下所有文件:指定 OSS 目录必须以正斜线(/)头和结尾。

 

 

 

 

 

冲突策略

 

当 CPFS 智算版文件系统与 OSS Bucket 存在同名文件时的处理策略。

保持最新:同名文件比较更新时间,保持更新的版本。OSS 采用修改时间,CPFS 采用修改时间。

跳过同名文件:忽略同名文件不进行同步。

覆盖同名文件:将同名文件覆盖为 CPFS 端版本。

 

 

导出数据

 

  • Symlink 类型的文件在同步到 OSS 后,不会同步 Symlink 所指向的文件,而是会变成一个普通的无数据空白对象。

 

  • Hardlink 类型的文件仅作为普通文件同步到 OSS

 

  • 不支持 SocketDevicePipe 类型的文件导出到 OSS Bucket

 

  • 不支持长度大于 1023 字符的目录路径。

 

 

 

配 置项

 

说明

 

导 出文件

选择数据流动任务执行的目录或者文件列表。

导出 CPFS 此目录下所有文件:目录必须以正斜线(/)开头和结尾,且是该目录在 CPFS 智算版文件系统中的路径。

 

 

 

 

冲 突策略

 

当 CPFS 智算版文件系统与 OSS Bucket 存在同名文件时的处理策略。保持最新:同名文件比较更新时间(即 mtime),保持更新的版本。跳过同名文件:忽略同名文件不进行同步。

覆盖同名文件:将同名文件覆盖为 CPFS 端版本。

 

  • 单击确定。

 

 

查看任务报告

 

  • 当数据流动任务运行失败后,系统将生成一份失败任务报告,您可以在控制台上下  载该报告并排查失败原因。

 

 

  • 在左侧导航栏,选择文件系统>文件系统列表。

 

  • 在顶部菜单栏,选择地域。

 

  • 在文件系统列表页面,单击目标文件系统名称。

 

  • 在文件系统详情页面,单击数据流动。

 

  • 在数据流动页签,找到目标数据流动,单击任务管理。

 

  • image.png 在任务管理面板在需要查看任务报告的操作列 > 报告

 

  • 获取目标任务报告的详细路径并下载。

 

  • 说明

 

  • 若未显示报告或无法根据报告排查失败原因,请联系 CPFS 技术支持进行咨询。点击加入技术支持群建议使用 Chrome 打开或搜索公开群组并加入,钉钉群号:26570026011

 

  • 打开下载的文件,并在表格的 reason 列查看失败原因。

 

相关操作

 

 

 

操作

 

说明

 

步骤

 

 

 

 

您可以通过控制台查看数据流动任务的配置及运行状态。

 

在数据流动页签,单击创建数据流动。

在任务管理面板,查看目标任务详情。

 

 

 

 

您可以在控制台取消运行中的数据流动任务。

 

在数据流动页签,单击创建数据流动。

在任务管理面板,找到目标任务,单击取消。

确认待取消的任务,单击确定。

 

 

 

 

 

 

您可以通过复制任务重复执行之前已经执行过的任务。

 

在数据流动页签,单击创建数据流动。

在任务管理面板,找到目标任务,选择。

确认待复制的任务,单击确定。

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
存储 人工智能 弹性计算
|
存储 NoSQL 文件存储
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
云计算问题之阿里云文件存储CPFS如何满足大模型智算场景的存储需求
285 2
|
Cloud Native 文件存储 数据库
《阿里云产品四月刊》—CPFS 智算版数据流动(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
248 1
|
Cloud Native 对象存储 文件存储
《阿里云产品四月刊》—CPFS 智算版数据流动(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
294 0
|
存储 人工智能 自动驾驶
高性能存储CPFS在AIGC场景的具体应用
高性能存储CPFS在AIGC场景的具体应用
|
9月前
|
存储 人工智能 弹性计算
飞天发布时刻丨阿里云基础设施助力企业全球化业务创新
丰富灵活的算力服务、稳定高可用的存储产品,覆盖了出海企业 AI 创新、 大数据分析、 应用管理和办公协同等不同场景和需求,助力客户业务全球化布局。
|
数据采集 数据可视化 数据挖掘
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
本文探讨了金融资产波动率建模中的三种主流方法:GARCH、GJR-GARCH和HAR模型,基于SPY的实际交易数据进行实证分析。GARCH模型捕捉波动率聚类特征,GJR-GARCH引入杠杆效应,HAR整合多时间尺度波动率信息。通过Python实现模型估计与性能比较,展示了各模型在风险管理、衍生品定价等领域的应用优势。
1086 66
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
|
存储 缓存 人工智能
深度解析CPFS 在 LLM 场景下的高性能存储技术
本文深入探讨了CPFS在大语言模型(LLM)训练中的端到端性能优化策略,涵盖计算端缓存加速、智能网卡加速、数据并行访问及数据流优化等方面。重点分析了大模型对存储系统的挑战,包括计算规模扩大、算力多样性及数据集增长带来的压力。通过分布式P2P读缓存、IO加速、高性能存算通路技术以及智能数据管理等手段,显著提升了存储系统的吞吐量和响应速度,有效提高了GPU利用率,降低了延迟,从而加速了大模型的训练进程。总结了CPFS在AI训练场景中的创新与优化实践,为未来大模型发展提供了有力支持。