机器学习 PAI 如何上传训练数据|学习笔记

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
对象存储 OSS,20GB 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 快速学习机器学习 PAI 如何上传训练数据。

开发者学堂课程【PAL 平台学习路线:机器学习入门到应用:机器学习 PAI 如何上传训练数据】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/855/detail/14234


机器学习 PAI 如何上传训练数据

 

内容介绍:

一、如何上传表结构的数据

二、非结构化数据上传

 

机器学习 PAI 平台支持两种结构数据的处理,一种是非结构化数据,一种是结构化数据。结构化数据就是通常见到的表结构。

 

一、如何上传表结构的数据

上传这样数据有两种方式,一种是通过 PAI 的 ID 环境;另一种是通过命令工具。通过 PAI 的 ID 环境上传数据建议数据不要超过20兆。首先看如何通过 ID 来创建一个表。

先有一个实验,之后点开数据源创建表。现在本地已经新建了一个样例的数据,这份数据一共包含四个字段

 图片26.png

现在支持的是直接从本地上传 TST 和 CSV 两种格式的数据。这些数据的字段间可以自定义的分割符还有行分隔符。这里建议使用 TST 格式上传。

选择好文件之后就可以新建表,现在新建一个叫 TST4的表。可以选择表的生命周期。这里设置每个字段的类型以及这个字段的名称。为了方便这里设置成 string 型。之后点击确定。这份数据就会通过 ID 环境自动上传到项目空间中。上传好的数据可以通过搜索拿到。之后点击右键查看数据就可以查看资源。

以上就是如何通过 ID 上传数据。

另一种方式就是通过 maxcompute(支持多种数据导入工具)的数据导入工具:常见的是 tunnel。可以在阿里云的搜索框中搜索 tunnel 就会看到很多数据上传的文档。

图片25.png

 

二、非结构化数据上传

非结构化数据常用图或者语言这样的数据,这些数据主要针对的 PAI 上面的深度学习的框架。

图片24.png

上图的深度学习框架的数据源是读 OSSbucket。bucket 是 OSS 的一个存储单元。

首先来到 OSS,在云计算基础服务,存储与 CDN 可以看到对象存储。注册一个账号并且申请购买 OSS 之后就可以进到下图页面:

图片23.png

然后需要新建一个 bucket,点击 bucket 进入到 image net。这里可以使用常规的云盘上传工具的方式进行操作。点击上传文件,就可以上传任何格式的文件。上传过后会建立一个任务,在任务执行的过程种不要刷新页面,刷新页面这个任务就会终止掉。OSS 也提供了一个命令行上传的工具。以上就是关于 PAI 的数据上传。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1月前
|
机器学习/深度学习 数据采集 JSON
Pandas数据应用:机器学习预处理
本文介绍如何使用Pandas进行机器学习数据预处理,涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤,并提供解决方案,确保数据质量,提升模型性能。
150 88
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
206 36
|
1月前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
62 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
1月前
如何看PAI产品下训练(train)模型任务的费用细节
PAI产品下训练(train)模型任务的费用细节
85 6
|
3月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
1月前
|
人工智能 Kubernetes Cloud Native
跨越鸿沟:PAI-DSW 支持动态数据挂载新体验
本文讲述了如何在 PAI-DSW 中集成和利用 Fluid 框架,以及通过动态挂载技术实现 OSS 等存储介质上数据集的快速接入和管理。通过案例演示,进一步展示了动态挂载功能的实际应用效果和优势。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
模型训练数据-MinerU一款Pdf转Markdown软件
MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。
311 4
|
3月前
|
人工智能 边缘计算 JSON
DistilQwen2 蒸馏小模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
本文详细介绍在 PAI 平台使用 DistilQwen2 蒸馏小模型的全链路最佳实践。
|
3月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
58 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
浅谈机器学习,聊聊训练过程,就酱!
本故事讲的是关于机器学习的基本概念和训练过程。通过这个故事,你将对机器学习有一个直观的了解。随后,当你翻阅关于机器学习的书籍时,也许会有不同的感受。如果你有感觉到任督二脉被打通了,那我真是太高兴了。如果没有,我再努努力 ヘ(・_|
63 0
浅谈机器学习,聊聊训练过程,就酱!