PAI平台公共数据集导出

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 很多用户在使用阿里云机器学习PAI Studio运行模板实验的时候,希望将模板实验的原始数据导出到本地,可以在本地编写算法代码测试相关数据,但是PAI平台本身并不支持数据的直接导出,这里介绍一种方式方便用户快速导出公共测试数据集。

Step By Step

1、数据读取
2、数据导出到自己的maxcompute项目表
3、通过DataWorks下载数据
4、通过odps cmd下载数据


一、数据读取
这里以 基于对象特征推荐实验为例,获取公共数据集数据:pai_online_project.tao_train
  • 1.1 模板创建实验

图片.png

  • 1.2 一键运行实验

图片.png

二、数据导出到自己的maxcompute项目表
  • 2.1 使用写数据表组件将数据写入到自己的maxcompute项目

图片.png

三、通过DataWorks下载数据
  • 3.1 创建odps sql查询数据,快速下载

图片.png

注意: 目前DataWorks界面一次下载数据的上限是10000条,如果数据集超过1万条,无法通过修改SQL分次下载实现,建议可以通过DataWorks的数据集成功能,将数据导出到阿里云MySQL数据库或者本地支持公网连接的MySQL数据库。

四、通过odps cli下载数据
tunnel 命令是专门用来上传下载maxcompute数据的,也不受10000条下载的限制
  • 下载指令
tunnel download download_table_test log.txt //下载指定表数据

cli客户端工具安装:MaxCompute客户端(odpscmd)


相关参考

数据集成导出数据

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
调度 存储 数据库
|
6月前
|
机器人
Dataphin功能Tips系列(5)-手工表上传及长期维护
有些业务数据是手工excel维护的,这时我们要如何将数据上传至dataphin并进行维护?
Dataphin功能Tips系列(5)-手工表上传及长期维护
|
Android开发
Android系统开发中产品信息文件说明
Android系统开发中产品信息文件说明
119 1
|
6月前
|
easyexcel 数据库
公司大佬对excel导入、导出的封装,那叫一个秒啊
封装公司统一使用的组件的主要目标是为了简化开发人员的调用流程,避免各个项目组重复集成和编写不规范的代码。文中提到对阿里EasyExcel进行了二次封装,提供了导入和导出功能,并支持模板的导入和导出。此外,还处理了读取数据与实际保存数据不一致的情况,通过提供自定义转换器来解决。
289 0
|
存储 供应链
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
135 0
|
应用服务中间件 Linux 索引
42分布式电商项目 - 修改索引库名称
42分布式电商项目 - 修改索引库名称
63 0
|
自然语言处理 API 数据处理
面向低资源和增量类型的命名实体识别挑战赛PaddleNLP解决方案
面向低资源和增量类型的命名实体识别挑战赛PaddleNLP解决方案
99 0
|
存储 NoSQL Linux
ArcGIS:如何创建地理数据库、创建要素类数据集、导入要素类、表?
ArcGIS:如何创建地理数据库、创建要素类数据集、导入要素类、表?
4070 0
|
Oracle 关系型数据库
pdp 跨用户导出导入
pdp 跨用户导出导入,expdp,impdp
91 0
下一篇
无影云桌面