2.3 数据变换【李沐-斯坦福21秋季：实用机器学习中文版】

2023-05-12 101

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通过算法使得均值变为0，方差变为1 。把一列的数据换成是-1到1之间的数据。

2.3 数据变换

1.数据流程：原始数据–标注及清理–数据变形–特征工程–模型训练

把一个列里面的数值的最小值与最大值都限定到一个固定区间内，然后把所有的元素只通过线性变化出来【将数据的单位放到合理的区间】；

通过算法使得均值变为0，方差变为1 。把一列的数据换成是-1到1之间的数据。

使Xi➗10的阶乘，使Xi的绝对值处于-1与1之间。

对数值都是大于0，且数值变换比较大可以试一下log一下【log上面的加减等于原始数据的乘除，可以将计算基于百分比的】。

将图片的尺寸变小，机器学习对低分辨率的图片不在意，图片采样的比较小，且jpeg选用中等质量压缩，可能会导致精度有1%的下降（ImageNet），凡是数据的大小与质量要做权衡，要么不要下采样，要么下采样的时候数据的质量（分辨率）就要高一点。通常数据质量更加的重要。

1.当你拿到VIDEO的时候，你需要将他缩减成对你最有用的片段，因为机器学习看不了那么长的视频

2.把视频压缩，但是读取比较困难

3.处理视频的时候，我们可以提取关键帧，而并不是输入整个视频

1.词根化(语法化)：把一个词变成常见的形式

2.词元化(机器学习算法中最小的单元也就是token)