学习中心> 零基础入门天池AI比赛> 正文

零基础入门天池AI比赛

5课时 |
1643人已学 |
免费
课程介绍

课程介绍

本节课程带领大家了解天池平台为学习者提供的赛事、数据集、算力资源,并着重介绍天池实验室(在线编程功能)的使用,为后续的学习和实践打好基础。

 

相关活动及产品

天池实验室入口:https://tianchi.aliyun.com/notebook-ai
实践案例链接:https://tianchi.aliyun.com/competition/entrance/531837/tab/227
天池龙珠计划训练营:https://tianchi.aliyun.com/specials/promotion/aicamps

天池实验室(PAI DSW探索者版)使用介绍

 

 

内容介绍:

  1. 天池实验室介绍
  2. 实战演示

 

 

  1. 天池实验室介绍
  1. 初识天池实验室

天池实验室是基于PAI DSW探索版开发的,

PAI DSW(Data Science Workshop)是为算法开发者量身打造的云端开发环境,用户可在DSW中利用阿里云提供的CPU/GPU算力资源实现云端编程,

无需任何运维配置即可直接开启Jupyter Notebook编写,调试,运行Python代码。DSW的主要面向用户是深度学习算法的开发者,其中内置了深度学习网络可视化建模并支持开源框架的安装。

 

 

  1. 核心特征

(1)研发环境快速搭建,定制与分享十分灵活。

(2)线上,线下各种数据源打通,包括ODPS,OSS, NAS,Local Storage, GitLab等 。

(3)支持各种训练框架,其中包括阿里巴巴深度优化的Tensorflow框架,通过编译优化提升训练性能。

(4)交互式编程,可视化调试与命令行输入等多种编程模式,兼顾不同习惯的开发者。

(5)为天池参赛用户打通整个链路,可在DSW平台完成天池比赛数据挂载,文档导入以及完成后保存发布到天池技术圈。

 

 

3.资源配置

天池实验室的底座是DSW探索者版,其基本配置如下:
云资源用户在DSW上编程使用的是阿里云提供的硬件资源,可选择2c4g的CPU或是Tesla P100 GPU。
多镜像支持提供了不同环境配置的CPU/GPU镜像,方便用户在不同场景下使用和调度计算资源。


存储资源DSW将用户编程所使用的数据和文档都储存在云端,为每位用户提供5G的免费存储空间。
使用时长为保证资源的有效利用,用户每次打开DSW的单次使用时长为8小时,8小时后会自动断开。断开后用户可以刷新浏览器进行重连。


注意事项:
(1)第一次启动DSW的速度较长,如果超过2分钟未响应请刷新页面
(2)推荐使用chrome浏览器

 

 

  1. 实战演练

首先进入阿里云官网,点击天池实验室标题栏中的天池notebook

 

页面分为上下两部分,上部分为天池notebook介绍、我的实验室和我的最新项目,下部分为公开项目的合集包含所有项目、我的Star、我的公开项目。

 

其次进入我的实验室

主要包含三个部分:我的notebook、我的数据集、帮助手册。

我的notebook,我的notebook有两种功能,一种是直接新建一种并上传,它会产生一个以新建时间为命名的一个文件,然后上传一个.ipynb文件,这里要注意一下这个文件,它不是上传的,需要注意一下。

 

这个默认的命名比较难记,最好去自己修改它的命名。在设置这里,点击设置的地方可以进行命题的设置。

在做比赛时,如果大部分基于一个比赛创建并与比赛相关联,后续的比赛提交会比较方便,而且会自动关联比赛的数据。如果是没有关联比赛的,就选择无。

 

项目性质分公开和私有,所有公开的项目是被任何人都可以查看,所以要根据自己的实际情况设置,公开设置之后不能再重新设置为私有。还有一个挂载数据的功能,它的功能就是将数据与notebook进行关联稍后再试,在实验室中可以更方便地进行下载。

 

挂载数据集主要是分成三块,一块是参加比赛的数据,一块是公有数据集,一块是我的数据集。

那参加比赛的数据,如果报名来参加哪个比赛,这个比赛的数据就会自动存储在该个列表中,如果在这个列表中,没有找到参加那个比赛的话,说明这个比赛的数据是不支持直接换到天池notebook的,可能需要等到未来等到支持了才会显示。

 

关于公有数据集是支持所有的用户进行一个开源的一个数据集,所有的用户都会把所有的公开数据都会在这里显示,可以进行搜索寻找到自己期望的。我的数据集,我的数据就是自己新建的所有的数据。点击我的数据集,然后点击新建并修改名称。

 

行业标签根据自己的实际情况进行选择,需要输入数据集的描述,需要对数据都进行一个简单的描述,可以根据这个描述来区分一下当时是为什么建立了这个数据集。

 

然后数据列表就可以进行点击上传。数据集是对所有人开放使用的,如果是非公共数据集或者是敏感数据的话,需要谨慎操作,这样就建立完成一个数据集。回到刚才的页面。实验室介绍,可以在数据这边进行挂载到我的数据,点击数据实验室数据集,点击添加,就很快完成挂载。点击编辑按钮进入实验室,如果提示要登录同一个账号,保持一致即可进入实验室。

 

DSW,是基于notebook开发的一个集成的一个框架,具有比较强大的功能。DSW具有分区,DSW分区分成三块。第一块是文件区域,中间是工作区域,边上的是资源计算区域。

 

 

文件区域

 

工作区域

计算资源区域,可以查看你当前使用的计算类型,有一个比较小的按钮,点击弹出资源详情,可以查看现在正在使用的资源。

 

文件资源区域,包括了文件资源管理器等。

工作区域,没有打开任何文档的情况下,默认会显示一个启动页面。可以新建一些python3,Python2的一些文件,底下other命令行文件,就我们可以点击,命令行终端文件可以创建文件夹或者安装拓展包之类的操作。

创建新的notebook文件,上方依次为保存按钮,新建按钮,剪切按钮,复制按钮,运行按钮,终止按钮,重启内核按钮,重启内核并运行。

 

举例演示

1.首页点击天池大赛并选择学习赛

2.选择一个学习赛进入,点击论坛进入

3.选择置顶的项目进入并点击Fork进入到实验室中

4.点击编辑

5.赛前准备

6.在pip install workcloud--user前输入感叹号“!”点击运行按钮进行安装包的下载安装

7.下载数据集,首先点击天池按钮,点击刷新状态,点击默认状态的下载按钮

 

8.数据处理点击运行若点击终止会导致程序出错

9.保存,点击天池,再点击保存到天池

10.回到天池实验室点击网页刷新进行查看

11.点击设置可以修改成公开项目,让其他人看见再点击保存

12.最后点击右侧的发布至技术圈