FM算法介绍-阿里云开发者社区

FM算法介绍

2019-08-05 13236

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 概述FM (Factorization Machine) 算法可进行回归和二分类预测，它的特点是考虑了特征之间的相互作用，是一种非线性模型，目前FM算法是推荐领域被验证的效果较好的推荐方案之一，在诸多电商、广告、直播厂商的推荐领域有广泛应用。

概述

FM (Factorization Machine) 算法可进行回归和二分类预测，它的特点是考虑了特征之间的相互作用，是一种非线性模型，目前FM算法是推荐领域被验证的效果较好的推荐方案之一，在诸多电商、广告、直播厂商的推荐领域有广泛应用。

PAI平台的FM算法基于阿里内部大数据的锤炼，具备性能优越、效果突出的特点。具体使用方式可以参见首页模板：

使用FM算法整体流程需要包含FM训练和FM预测组件，可以搭配评估组件使用。

目前PAI的FM算法只支持libsvm格式的数据，数据需要包含两列，分别是特征列和目标列。

如图：

在“参数设置”中可以设置回归或者分类两种模式：

参数	解释	取值
tensorColName	训练的特征列名 (kv格式的字符串，例如"1:1.0,3:1.0"，特征的id必须是非负整数，取值范围是[0,Long.MAX_VALUE)，可以不连续）	必选
labelColName	label列名 (要求是数值类型，如果任务类型是binary_classification，那么label值必须是0或1)	必选
task	任务类型	必选，"regression" or "binary_classification"
numEpochs	迭代数	可选，默认值10
dim	因子数，字符串，用逗号分隔的三个整数，表示0次项、线性项、二次项的长度	可选，默认值 "1,1,10"
learnRate	学习率	可选，默认值 0.01
lambda	正则化系数，字符串，用逗号分隔的三个浮点数，表示0次项、线性项、二次项的正则化系数	可选，默认值 "0.01,0.01,0.01"
initStdev	参数初始化标准差	可选，默认值0.05

备注1：

在首页模板案例的数据情况下，使用PAI FM生成的模型可以达到接近0.97的AUC