这里是三岁,今天是小白逆袭大神的第五天这里整理了一下昨天的内容,和老师说的答题思路,如有不足,希望大家多多指点!谢谢大家
参考网站:百度飞桨学院:https://aistudio.baidu.com/aistudio/education/lessonvideo/304581
笔记
深度学习
深度学习难点: 语言博大精深,语义语境等还有
需要大量数据,大模型,打算力都受到极大的限制
所以自己开发难度过大
使用框架就不一样了,我们站在了巨人的肩膀上了!
一些具体体验可以参考:paddlehub体验
短短几行就出现了极好的效果,什么抠图,判断有没有戴口罩什么的
人家ps不要面子的吗?
题目解析(二分法)
该命令在CPU环境必须执行,GPU不用
这里的代码是解析zip文件,如果上传数据集需要自己解析(根据自己的文件名进行修改)
- 训练图片量建议在50+ 100张以上
导入训练集,根据需要自己修改,修改以后记得安装,不然会报错
!hub install 名称
自定义数据
参考资料:PaddleHub适配自定义数据完成finetune
对数据进行三分类
三分类:
分成
- 训练集数据列表(机器训练使用)(相对应上课题目)
- 测试集数据列表(机器周期测试使用)(相对应平时测验)
- 验证集数据列表(训练结束以后进行验证)(相对应期末考试)
建议:训练:测试:验证 = 8:1:1 (建议数据,可以修改)
ps:本次作业验证集为5张但是并不表示占所有数据的一份!
- 标签列表 用于表达数据种类 (相对应考试大纲)
微调设置
- use_cuda 使用CPU则使用False
- num_epoch 训练的轮数(适中即可,太多的数据会导致识别问题)
- batch_size 一次运行的照片数
- eval_interval 模型评估时间 (相对应单元测试的时间和密度)
- strategy 优化策略种类,可以根据实际进行修改
优化策略参考地址:PaddleHub API:策略
训练
训练结果里面有预测
其中:
*loss 相对来说越低越好
*occ越高越好
在训练中loss下降,occ上升说明数据在耦合化在朝好的方向发展。
预测
输出数组
数组是相对应的比例,比例越高概率越高
最后的结果也会输出
第四天作业
今天的作业比较难,小编刚开始也懵逼了
看了课基本上懂了一点点
说一下思路:
首先:
- 准备数据集,数据集主要是训练集和测试集(验证集不能够用于测试集和训练集)
准备好图片以后发现量太少了怎么办?
文文老师的课流出了两张靓图:
数据增强一波,即可
数据集准备好了,
- 文件的写入:第一天的课程里面说了读取目录下面的所有文件及子文件那么稍加修改即可
文件写入好了,接下来微调即可
根据实际情况进行修改,尽可能的做到数据的耦合化
接下来就是机器学习的时间了!!!
出现的一些报错
小编遇到的一些报错给大家分享以下
1:
这里面是CUDA报错了,原因是小编cpu启动use_cuda没有修改还是True
这个地方也要同步修改!!!
2:
这个是因为模型没有安装 需要加上!hub install 名称
文件读取错误,这里有可能是写入的文件错误(地址的问题)
在train_list.txt文件里面多加了 dataset 路径,把这部分删除即可
预测代码需要加上 dataset 路径,其他的不需要
目前知到的的错误就这么多,成功了一次,对了60%,还在继续
不说了,啥也不是,继续加油!!!
希望大家今天的作业都能够满分,奥利给!!!