2.4 特征工程
1. 特征工程的来源:
因为机器学习的算法比较喜欢定义的比较好的、它能比较好的去处理的、固定长度的输入输出。
2. 表类的数据
1.整型或浮点型的数据:可以直接用或者是把最大最小值拿出来,再把这个数据分成n个区间,如果值在区间中,则会给它对应区间的下标i
2.类别的数据:一般采用one-hot(独热)编码,如果存在有很多的类别,但是常见的只有几个类,可以将少数的类别变成不
确定的类别,只保留那些比较重要的类别,这样可以把这些重要的类别放到可控的单元内
3.时间的特征:将时间的数据转化成机器学习算法能知道这些天数中是有特殊意义的日子,例如工作日、周末。
4.特征组合:组合两两特征之间相关性的东西。
3. 文本数据
1.使用预训练的模型 ,例如BERT,GPT-3模型
2.把文本转化成词元:
1.Bag of woeds(BoW)
model:把每一个词元(token)弄成one-hot编码,再把句子里的所有词元加起来,但是这里要注意的是,我们怎么样把词典构造出来,不能太大也不能太小;BoW
model最大的问题在于原句子的信息丢失了。
2.Word Embeddings(词嵌入):将词变成一个向量,向量之间具有一定的语义性的,两个词之间对应的向量之间的内积比较近的话,说明这两个词在语义上来说是比较相近 。
4. 图片或者视频数据
1.传统是用手动的特征方式如SIFT来做
2.用预训练好的深度神经网络来做。可以用一个在ImgNet上面与训练好的模型来训练,吧最后一层(分类器)前面那一层的输出的向量作为特征。例如ResNet、I3D模型。