2.3 数据变换
1.数据流程:原始数据–标注及清理–数据变形–特征工程–模型训练
2. 数据归一化
1. Max-Min Normalization算法:
把一个列里面的数值的最小值与最大值都限定到一个固定区间内,然后把所有的元素只通过线性变化出来【将数据的单位放到合理的区间】;
2. Z-Score 算法:
通过算法使得均值变为0,方差变为1 。把一列的数据换成是-1到1之间的数据。
3. Decimal-Scaling 算法:
使Xi➗10的阶乘,使Xi的绝对值处于-1与1之间。
4. Log-Scaling 算法:
对数值都是大于0,且数值变换比较大可以试一下log一下【log上面的加减等于原始数据的乘除,可以将计算基于百分比的】。
3. 图象变换
将图片的尺寸变小,机器学习对低分辨率的图片不在意,图片采样的比较小,且jpeg选用中等质量压缩,可能会导致精度有1%的下降(ImageNet),凡是数据的大小与质量要做权衡,要么不要下采样,要么下采样的时候数据的质量(分辨率)就要高一点。通常数据质量更加的重要。
4. 视频变换
1.当你拿到VIDEO的时候,你需要将他缩减成对你最有用的片段,因为机器学习看不了那么长的视频
2.把视频压缩,但是读取比较困难
3.处理视频的时候,我们可以提取关键帧,而并不是输入整个视频
5. 文本变换
1.词根化(语法化):把一个词变成常见的形式
2.词元化(机器学习算法中最小的单元也就是token)
总结: