深度学习推荐模型-NFM

2022-10-19 348

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： FM对于特征的组合仅限于二阶，缺少对特征之间深层次关系的抽取。因此，NFM提出来就是在FM的基础上引入神经网络，实现对特征的深层次抽取。

ffe68336224a352089bfa7da456cb76e_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxX3h1YW5zaHVhbmc=,size_16,color_FFFFFF,t_70.png

推荐算法－NFM

FM对于特征的组合仅限于二阶，缺少对特征之间深层次关系的抽取。因此，NFM提出来就是在FM的基础上引入神经网络，实现对特征的深层次抽取。

NFM Model

与FM（因式分解机）相似，NFM使用实值特征向量。给定一个稀疏向量x∈Rn作为输入，其中特征值为xi=0表示第i个特征不存在，NFM预估的目标为:

其中第一项和第二项是线性回归部分，与FM相似，FM模拟数据的全局偏差和特征权重。第三项f(x)是NFM的核心组成部分,用于建模特征交互。它是一个多层前馈神经网络。

NFM的模型结构图：

首先输入就是离散化的特征，然后再进行embedding操作，获得每一个特征的向量表示。接着就到了Bi-interaction Pooling层，这里其实就是FM部分。FM的公式如下图所示：

去掉最外层的累加号，我们得到的是一个长度为K的向量，也就是embedding部分的长度。然后再对这个向量送入几层全连接层即可，最后输出ctr预估值。这就是NFM的整体思路。

1.Embedding Layer

和其他的DNN模型处理稀疏输入一样，Embedding将输入转换到低维度的稠密的嵌入空间中进行处理。这里做稍微不同的处理是，使用原始的特征值乘以Embedding vector，使得模型也可以处理real valued feature。

2.B-Interaction Layer

Bi是Bi-linear的缩写，这一层其实是一个pooling层操作，它把很多个向量转换成一个向量，形式化如下：

fbi的输入是整个的嵌入向量，xi ，xj是特征取值，vi， vj是特征对应的嵌入向量。中间的操作表示对应位置相乘。所以原始的嵌入向量任意两个都进行组合，对应位置相乘结果得到一个新向量；然后把这些新向量相加，就得到了Bi-Interaction的输出。这个输出只有一个向量。

3.Hidden Layer

这个跟其他的模型基本一样，堆积隐藏层以期来学习高阶组合特征。一般选用constant的效果要好一些。

4.Prediction Layer

最后一层隐藏层Zl到输出层最后预测结果形式化如下：

其中h是中间的网络参数。考虑到前面的各层隐藏层权重矩阵，f(x)形式化如下：

这里相比于FM其实多出的参数其实就是隐藏层的参数，所以说FM也可以看做是一个神经网络架构，就是去掉隐藏层的NFM。

NFM主要的特点：

1. NFM核心就是在NN中引入了Bilinear Interaction(Bi-Interaction) pooling操作。基于此，NN可以在low level就学习到包含更多信息的组合特征。

2. 通过deepen FM来学习高阶的非线性的组合特征。

3. NFM相比于上面提到的DNN模型，模型结构更浅、更简单(shallower structure)，但是性能更好，训练和调整参数更加容易。

所以，依旧是FM+DNN的组合套路，不同之处在于如何处理Embedding向量，这也是各个模型重点关注的地方。现在来看业界就如何用DNN来处理高维稀疏的数据并没有一个统一普适的方法，依旧在摸索中。

深度学习推荐模型-NFM

推荐算法－NFM

1.Embedding Layer

2.B-Interaction Layer

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景