开发者学堂课程【PAL 平台学习路线:机器学习入门到应用:机器学习 PAI 如何上传训练数据】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/855/detail/14234
机器学习 PAI 如何上传训练数据
内容介绍:
一、如何上传表结构的数据
二、非结构化数据上传
机器学习 PAI 平台支持两种结构数据的处理,一种是非结构化数据,一种是结构化数据。结构化数据就是通常见到的表结构。
一、如何上传表结构的数据
上传这样数据有两种方式,一种是通过 PAI 的 ID 环境;另一种是通过命令工具。通过 PAI 的 ID 环境上传数据建议数据不要超过20兆。首先看如何通过 ID 来创建一个表。
先有一个实验,之后点开数据源创建表。现在本地已经新建了一个样例的数据,这份数据一共包含四个字段
现在支持的是直接从本地上传 TST 和 CSV 两种格式的数据。这些数据的字段间可以自定义的分割符还有行分隔符。这里建议使用 TST 格式上传。
选择好文件之后就可以新建表,现在新建一个叫 TST4的表。可以选择表的生命周期。这里设置每个字段的类型以及这个字段的名称。为了方便这里设置成 string 型。之后点击确定。这份数据就会通过 ID 环境自动上传到项目空间中。上传好的数据可以通过搜索拿到。之后点击右键查看数据就可以查看资源。
以上就是如何通过 ID 上传数据。
另一种方式就是通过 maxcompute(支持多种数据导入工具)的数据导入工具:常见的是 tunnel。可以在阿里云的搜索框中搜索 tunnel 就会看到很多数据上传的文档。
二、非结构化数据上传
非结构化数据常用图或者语言这样的数据,这些数据主要针对的 PAI 上面的深度学习的框架。
上图的深度学习框架的数据源是读 OSSbucket。bucket 是 OSS 的一个存储单元。
首先来到 OSS,在云计算基础服务,存储与 CDN 可以看到对象存储。注册一个账号并且申请购买 OSS 之后就可以进到下图页面:
然后需要新建一个 bucket,点击 bucket 进入到 image net。这里可以使用常规的云盘上传工具的方式进行操作。点击上传文件,就可以上传任何格式的文件。上传过后会建立一个任务,在任务执行的过程种不要刷新页面,刷新页面这个任务就会终止掉。OSS 也提供了一个命令行上传的工具。以上就是关于 PAI 的数据上传。