● 数据清洗:通过 odps 的大促表爬取了每个类别约 1000 张图片,但是其中很多图片由于是商家上传的,可能会有无效数据,丢失数据甚至是错误数据,比如我们在处理这些图片的时候发现很多白底图和商品图是混淆的,我们将会对这些数据首先进行一轮清理。
● 人工样本:在常见类别中,我们发现诸如氛围图这类很难爬取到很多,同时这类样本具有明显的特征,于是我们将根据这种特征进行样本制造。我们使用了node-canvas 人工制作了约1000 张样本,同时,高斯模糊这一类别实际上往往就是一些商品图进行模糊之后的效果,所以我们对爬取到的商品图使用opencv 进行高斯模糊,得到样本。
● 数据增强:由于我们场景的特殊性,我们不能采用一些传统的数据增强的方式,比如高斯模糊(因为我们有一类就是高斯模糊),但是我们进行了一些简单的诸如位移和轻微旋转等数据增强方式。
● TFRecord 转化:TFRecord 是 Tensorflow 官方设计并推荐的一种数据存储格式,每个TFRecord 内部存储了多个TFExample, 可可以想象每个TFExmaple 就是对应一组数据(X,y),TFExample 其实是一种谷歌官方开发的数据框架序列化格式,类似于Javascript 序列化输出的JSON 或者Python 序列化输出的Pickle 等格式,但是protobuf 体积更小,数据更快,效率更高,从Tensorflow 源码中也可以随处可见这种数据格式。以下从我们代码中截取的片段是针对一组数据创建TfExample。
以上内容摘自《前端代码是怎样智能生成的》电子书,点击https://developer.aliyun.com/topic/download?id=53可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。