开发者社区> 问答> 正文

数据预处理都包含哪些内容?

数据预处理都包含哪些内容?

展开
收起
云上静思 2022-07-28 18:28:06 580 0
1 条回答
写回答
取消 提交回答
  • ● 数据清洗:通过 odps 的大促表爬取了每个类别约 1000 张图片,但是其中很多图片由于是商家上传的,可能会有无效数据,丢失数据甚至是错误数据,比如我们在处理这些图片的时候发现很多白底图和商品图是混淆的,我们将会对这些数据首先进行一轮清理。

    ● 人工样本:在常见类别中,我们发现诸如氛围图这类很难爬取到很多,同时这类样本具有明显的特征,于是我们将根据这种特征进行样本制造。我们使用了node-canvas 人工制作了约1000 张样本,同时,高斯模糊这一类别实际上往往就是一些商品图进行模糊之后的效果,所以我们对爬取到的商品图使用opencv 进行高斯模糊,得到样本。

    ● 数据增强:由于我们场景的特殊性,我们不能采用一些传统的数据增强的方式,比如高斯模糊(因为我们有一类就是高斯模糊),但是我们进行了一些简单的诸如位移和轻微旋转等数据增强方式。

    ● TFRecord 转化:TFRecord 是 Tensorflow 官方设计并推荐的一种数据存储格式,每个TFRecord 内部存储了多个TFExample, 可可以想象每个TFExmaple 就是对应一组数据(X,y),TFExample 其实是一种谷歌官方开发的数据框架序列化格式,类似于Javascript 序列化输出的JSON 或者Python 序列化输出的Pickle 等格式,但是protobuf 体积更小,数据更快,效率更高,从Tensorflow 源码中也可以随处可见这种数据格式。以下从我们代码中截取的片段是针对一组数据创建TfExample。

    以上内容摘自《前端代码是怎样智能生成的》电子书,点击https://developer.aliyun.com/topic/download?id=53可下载完整版

    2022-07-28 19:05:49
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
阿里云开发者社区官方技术圈,用户产品功能发布、用户反馈收集等。
问答排行榜
最热
最新

相关电子书

更多
《Proxima:多模态向量检索引擎》 立即下载
机器学习中,使用Scikit-Leam简单处理文本数据 立即下载
低代码开发师(初级)实战教程 立即下载