PAI平台公共数据集导出

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 很多用户在使用阿里云机器学习PAI Studio运行模板实验的时候,希望将模板实验的原始数据导出到本地,可以在本地编写算法代码测试相关数据,但是PAI平台本身并不支持数据的直接导出,这里介绍一种方式方便用户快速导出公共测试数据集。

Step By Step

1、数据读取
2、数据导出到自己的maxcompute项目表
3、通过DataWorks下载数据
4、通过odps cmd下载数据


一、数据读取
这里以 基于对象特征推荐实验为例,获取公共数据集数据:pai_online_project.tao_train
  • 1.1 模板创建实验

图片.png

  • 1.2 一键运行实验

图片.png

二、数据导出到自己的maxcompute项目表
  • 2.1 使用写数据表组件将数据写入到自己的maxcompute项目

图片.png

三、通过DataWorks下载数据
  • 3.1 创建odps sql查询数据,快速下载

图片.png

注意: 目前DataWorks界面一次下载数据的上限是10000条,如果数据集超过1万条,无法通过修改SQL分次下载实现,建议可以通过DataWorks的数据集成功能,将数据导出到阿里云MySQL数据库或者本地支持公网连接的MySQL数据库。

四、通过odps cli下载数据
tunnel 命令是专门用来上传下载maxcompute数据的,也不受10000条下载的限制
  • 下载指令
tunnel download download_table_test log.txt //下载指定表数据

cli客户端工具安装:MaxCompute客户端(odpscmd)


相关参考

数据集成导出数据

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3月前
|
调度 存储 数据库
|
4月前
|
消息中间件 Kafka SQL
|
4月前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何导出生产环境所有的任务名
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
分布式计算 运维 DataWorks
MaxCompute产品使用问题之数据如何导出到本地部署的CK
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据地图中的信息发生修改,但是业务流程中的表结构没有相应变化,是什么导致的
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之如果想导出二级分区的所有数据,该怎么操作
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
分布式计算 运维 DataWorks
DataWorks产品使用合集之数据预览功能如何进行单独对个体进行设置
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
存储 DataWorks 数据挖掘
DataWorks产品使用合集之标准代码如何导入模板下载
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
263 0
|
7月前
|
机器人
Dataphin功能Tips系列(5)-手工表上传及长期维护
有些业务数据是手工excel维护的,这时我们要如何将数据上传至dataphin并进行维护?
105 7
Dataphin功能Tips系列(5)-手工表上传及长期维护