一、前言
前几天做深度学习模型训练使用 Google 的 colab 总是掉,搞得很烦。然后那天我队友 “叶伏天” 和我说有一个类似于 Google colab 的平台,可以训练,虽然也有 8 小时的限时,但是这两个我可以替换使用,甚至一起跑实验,显卡配置也可以满足我的需求训练模型的需求。这个平台就是阿里云天池实验室。
二、阿里天池实验室
进入网页,选择天池Notebook:https://tianchi.aliyun.com/
然后点击我的实验室,图右红框为最近建立的项目:
进入下面的界面后点击新建,就会出现红色箭头的项目,一般想跑自己的项目就可以设置成私有,完成后点击右侧蓝色编辑框,即可进入界面:
进入到这个界面就可以看到一些基本的操作空间,点击 File 可以新建Jupyter Notebook,点击帮助文档,里面会有一些常见的问题和操作。新建之后就可以查看你的文件路径或者点击新建终端 Terminal 也可以。
三、基本使用
说明一下,阿里云天池实验室你可以自由地上传自己的压缩包文件,解压命令为:
!unzip你的导包文件名.zip
解压后可以在终端黑窗用指令查看路径进行操作。
使用 pwd 命令进行操作显示路劲,ls命令查看文件下的目录,cd切换到指定目录,unzip命令可以解压缩文件。
解压文件可能会出现报错:
当时上传的数据、代码和各种文件总共有 900 多MB,上传好了进去发现 unzip 不出来,又在网络情况好的情况下,重新将数据和代码打包成 zip 文件再上传,解决了问题。
新建好notebook,查看所安装的包:
!piplist
查看 GPU 信息:
!nvidia-smi
查看 GPU 能否使用:
importtensorflowastfprint(tf.test.is_gpu_available()) # True
返回 True 则说明可以正常使用
查看当前路径:
!pwd
进入指定路径:
importosos.chdir("路径")
安装缺少的第三方库,比如说安装 tensorflow-gpu 版本:
!pipinstalltensorflow-gpu==1.4.0--user
安装tensorflow
!pipinstalltensorflow==1.4.0--user
训练的话按照平时执行 .py 文件的方法就行
!pythontrain_model.py
显示GPU已加载:
开始训练:
训练产生的文件:
由于这个阿里云只有 5G 的空间,使用的数据不要太大了,一般训练模型也够用了。总之免费的使用,也是挺不错的,主要是要使用GPU
说明:tensorflow和keras的版本适配,可以参考下面的网站