PAI平台公共数据集导出

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 很多用户在使用阿里云机器学习PAI Studio运行模板实验的时候,希望将模板实验的原始数据导出到本地,可以在本地编写算法代码测试相关数据,但是PAI平台本身并不支持数据的直接导出,这里介绍一种方式方便用户快速导出公共测试数据集。

Step By Step

1、数据读取
2、数据导出到自己的maxcompute项目表
3、通过DataWorks下载数据
4、通过odps cmd下载数据


一、数据读取
这里以 基于对象特征推荐实验为例,获取公共数据集数据:pai_online_project.tao_train
  • 1.1 模板创建实验

图片.png

  • 1.2 一键运行实验

图片.png

二、数据导出到自己的maxcompute项目表
  • 2.1 使用写数据表组件将数据写入到自己的maxcompute项目

图片.png

三、通过DataWorks下载数据
  • 3.1 创建odps sql查询数据,快速下载

图片.png

注意: 目前DataWorks界面一次下载数据的上限是10000条,如果数据集超过1万条,无法通过修改SQL分次下载实现,建议可以通过DataWorks的数据集成功能,将数据导出到阿里云MySQL数据库或者本地支持公网连接的MySQL数据库。

四、通过odps cli下载数据
tunnel 命令是专门用来上传下载maxcompute数据的,也不受10000条下载的限制
  • 下载指令
tunnel download download_table_test log.txt //下载指定表数据

cli客户端工具安装:MaxCompute客户端(odpscmd)


相关参考

数据集成导出数据

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
机器学习/深度学习 分布式计算 DataWorks
EasyRec 使用介绍|学习笔记
快速学习 EasyRec 使用介绍。
1881 0
|
10月前
|
机器学习/深度学习 缓存 PyTorch
为什么要用TorchEasyRec processor?
TorchEasyRec处理器支持Intel和AMD的CPU服务器及GPU推理,兼容普通PyTorch模型。它具备TorchEasyRec的特征工程(FG)和模型推理功能,提供更快的推理性能,降低成本。通过Item Feature Cache特性,它能够缓存特征以减少网络传输,进一步提升特征工程与推理的速度。
236 2
|
10月前
|
弹性计算 Ubuntu Linux
一键部署OpenWebUI+Ollama到阿里云ECS,轻松运行DeepSeek!(保姆级教程)
在当今数据驱动的时代,快速部署和管理大模型成为企业的关键需求。阿里云提供了一键部署OpenWebUI+Ollama的便捷方案,支持本地大模型运行和管理。用户也可以选择连接阿里云百炼的在线模型。
一键部署OpenWebUI+Ollama到阿里云ECS,轻松运行DeepSeek!(保姆级教程)
|
10月前
|
缓存 自然语言处理 搜索推荐
深入优化基于DeepSeek的智能客服系统:从基础到高级
本文在上一篇构建的DeepSeek智能客服系统基础上,深入探讨了性能优化、用户体验提升和高级功能集成的方法。通过缓存机制、异步处理优化性能;利用情感分析、个性化回答提升用户体验;引入语音识别、知识图谱等高级功能增强智能化水平。结合具体案例与代码示例,帮助开发者打造更高效、智能的客服系统。
|
存储 NoSQL 关系型数据库
什么是DBMS及其类型
【8月更文挑战第3天】
1348 6
什么是DBMS及其类型
|
Java
(详解)java:无效的目标发行版: 11
(详解)java:无效的目标发行版: 11
667 1
|
关系型数据库 MySQL 网络安全
MySQL⭐二、使用Navicat连接到服务器上的MySQL
MySQL⭐二、使用Navicat连接到服务器上的MySQL
|
存储 监控 并行计算
线程操纵术之更优雅的并行策略
本文详细介绍了并行编程以及一些并行问题案例中的真实业务场景。
112916 2
|
数据采集 前端开发 JavaScript
数据采集Selenium中的弹窗处理
使用Selenium自动化处理网页弹窗,包括浏览器警告(alert、confirm、prompt)和HTML自定义弹窗。示例代码展示了如何接受警
864 0
数据采集Selenium中的弹窗处理
|
Java 编译器 Android开发
构建高效Android应用:Kotlin与Java的性能比较
【4月更文挑战第25天】 在移动开发领域,性能优化始终是开发者关注的焦点。随着Kotlin的普及,许多Android开发者开始考虑是否应该采用这种新的编程语言来替代传统的Java。本文通过对Kotlin和Java进行深入的性能比较,揭示了两者在Android开发中的效率差异,并提供了选择合适语言以提升应用性能的策略。通过实际案例分析和基准测试,我们探讨了两种语言在编译速度、运行时性能以及内存消耗等方面的表现,旨在为开发者提供一个关于如何在Android项目中做出明智语言选择的指南。
533 0