机器学习-点击率预估-论文速读-20240916

简介: 机器学习-点击率预估-论文速读-20240916

1. [经典文章] 特征交叉: Factorization Machines, ICDM, 2010

分解机(Factorization Machines)

摘要

本文介绍了一种新的模型类——分解机(FM),它结合了支持向量机(SVM)和分解模型的优点。与SVM一样,FM可以处理任何实值特征向量。与SVM不同的是,FM使用分解参数对所有变量间的相互作用进行建模,因此即使在具有巨大稀疏性的问题中(如推荐系统),也能估计相互作用,而SVM在这种情况下会失败。我们展示了FM的模型方程可以在线性时间内计算,因此可以直接优化FM。与非线性SVM不同,不需要进行对偶形式的转换,模型参数可以直接估计,而不需要支持向量。我们展示了FM与SVM的关系以及FM在稀疏设置中参数估计的优势。另一方面,有许多不同的分解模型,如矩阵分解、并行因子分析或专门的模型如SVD++、PITF或FPMC。这些模型的缺点是它们不适用于一般预测任务,而只适用于特殊的输入数据。此外,它们的模型方程和优化算法是为每个任务单独派生的。我们展示了FM只需通过指定输入数据(即特征向量)就可以模仿这些模型。这使得即使是没有分解模型专业知识的用户也能轻松应用FM。

算法模型:

模型核心参数:

创新点

  1. 稀疏数据下的参数估计:FM能够在极端稀疏的数据环境中估计参数,这是传统SVM难以做到的。
  2. 线性复杂度:FM具有线性时间复杂度,可以直接在原始形式中优化,而不需要依赖于支持向量。
  3. 通用性:FM是一个通用预测器,可以处理任何实值特征向量,与特定任务的分解模型不同。

算法模型

  • 分解机模型:FM通过分解参数来模拟特征间的所有可能交互,而不是使用完全参数化的方式。
  • 模型方程:FM的模型方程可以在线性时间内计算,并且只依赖于线性数量的参数。
  • 优化:FM可以使用梯度下降方法(如随机梯度下降)有效学习模型参数。

实验效果

  • Netflix数据集:FM在Netflix数据集上的评分预测误差(RMSE)比SVM表现得更好,展示了在稀疏问题上的优势。
  • ECML Discovery Challenge 2009:FM在标签推荐任务中与PITF模型相比,展现了可比的预测质量。

推荐阅读指数:★★★★☆

  • 推荐理由
  • 创新性:FM结合了SVM的泛化能力和分解模型的优势,特别是在处理稀疏数据方面提供了新的解决方案。
  • 实用性:FM的线性复杂度和直接优化能力使其能够扩展到大型数据集,如Netflix,具有实际应用价值。
  • 理论深度:文章深入探讨了FM与SVM以及其他分解模型的理论联系,为理解FM的工作原理提供了坚实的理论基础。

2. [经典文章] 兴趣建模: Deep Interest Network for Click-Through Rate Prediction, KDD, 2018

深度兴趣网络用于点击率预测

摘要

点击率(CTR)预测在工业应用中是一项基本任务,例如在线广告。最近,基于深度学习的模型被提出,它们遵循类似的嵌入(Embedding)和多层感知器(MLP)范式。这些方法首先将大规模稀疏输入特征映射到低维嵌入向量,然后以分组的方式转换为固定长度的向量,最后将它们连接起来输入到多层感知器(MLP)中,以学习特征之间的非线性关系。然而,固定长度向量的使用将成为一个瓶颈,它为嵌入&MLP方法捕捉用户从丰富的历史行为中的多样化兴趣带来了困难。在本文中,我们提出了一种新颖的模型:深度兴趣网络(DIN),通过设计局部激活单元来适应性地从针对特定广告的历史行为中学习用户兴趣的表示。这种表示向量因不同的广告而异,极大地提高了模型的表现能力。此外,我们开发了两种技术:小批量感知正则化和数据自适应激活函数,这些技术可以帮助训练具有数亿参数的工业深度网络。在两个公共数据集以及阿里巴巴真实生产数据集上的实验表明,所提出方法的有效性,与最先进的方法相比,取得了优越的性能。DIN已成功部署在阿里巴巴的在线展示广告系统中,服务于主要流量。

创新点

  1. 局部激活单元:DIN通过局部激活单元关注与特定候选广告相关的用户历史行为,从而适应性地计算用户兴趣的表示向量。
  2. 小批量感知正则化:提出一种正则化技术,仅计算每个小批量中出现的特征的L2范数,减少了计算量。
  3. 数据自适应激活函数:设计了一种新的激活函数,根据输入数据的分布自适应调整激活点,提高了模型性能。

算法模型

  • 深度兴趣网络(DIN):引入局部激活单元,通过考虑历史行为与候选广告的相关性,适应性地学习用户兴趣的表示。
  • 小批量感知正则化:针对大规模稀疏特征的工业深度网络训练,仅对每个小批量中非零特征的参数进行正则化计算。
  • 数据自适应激活函数(Dice):一种基于数据分布自适应调整激活点的激活函数。

实验效果

  • 公共数据集:在Amazon和MovieLens数据集上,DIN相比于基线模型和其他深度模型,显示出优越的性能。
  • 阿里巴巴数据集:在具有超过20亿样本的阿里巴巴数据集上,DIN实现了显著的性能提升,AUC比基线模型提高了6.08%。
  • 在线A/B测试:在阿里巴巴的在线展示广告系统中,DIN贡献了高达10.0%的CTR和3.8%的RPM提升。

推荐阅读指数:★★★★☆

  • 推荐理由
  • 创新性:DIN模型通过局部激活单元和自适应激活函数,有效地捕捉了用户多样化的兴趣,提高了CTR预测的准确性。
  • 实用性:提出的技术已经在阿里巴巴的广告系统中得到实际应用,证明了其在工业级应用中的有效性和可扩展性。
  • 技术深度:文章详细介绍了DIN模型的设计和实现,以及针对大规模稀疏数据的优化技术,对相关领域的研究者和工程师具有较高的参考价值。

3. [每日新文] Intelligent maritime question-answering and recommendation system based on maritime vessel activity knowledge graph

C Xie, Z Zhong, L Zhang - Ocean Engineering, 2024

基于船舶活动知识图谱的智能海事问答与推荐系统

摘要

传统的海事交通管理通常依赖于定位数据进行数据挖掘,而没有结合其他多源数据来分析船舶活动,这无法进行全面的海事知识挖掘。因此,本研究整合了轨迹、海事事故文本和地理数据等多源数据,创建了一个船舶活动知识图谱。在此基础上,开发了基于双向问答注意力图神经网络的问答模型,以及基于注意力增强的联合知识传播和用户偏好图神经网络的个性化推荐模型。前者帮助用户从船舶活动知识图谱中提取有价值的信息,后者根据用户的历史查询信息预测用户的潜在兴趣,并自动推荐船舶实体。实验结果表明,所提出的问答模型在MVA问答数据集上,与最先进的基线模型相比,F1分数提高了2.31%-10.09%。同样,所提出的个性化推荐模型在MVA个性化推荐数据集上,与最先进的基线模型相比,点击率预测准确率提高了2.46%-7.05%。

创新点

  1. 多源数据融合:整合了轨迹、海事事故文本和地理数据等多源数据,构建了船舶活动知识图谱。
  2. 双向问答注意力图神经网络:开发了一种新的问答模型,可以更有效地从知识图谱中提取信息。
  3. 个性化推荐模型:基于注意力增强的联合知识传播和用户偏好图神经网络,预测用户潜在兴趣并进行推荐。

算法模型

  1. 问答模型:基于双向问答注意力图神经网络。
  2. 推荐模型:基于注意力增强的联合知识传播和用户偏好图神经网络。

实验效果

  • 问答模型:在MVA问答数据集上,F1分数比基线模型提高了2.31%-10.09%。
  • 推荐模型:在MVA个性化推荐数据集上,点击率预测准确率比基线模型提高了2.46%-7.05%。

推荐阅读指数:★★★★☆

  • 推荐理由
  • 创新性:文章提出了结合多源数据构建知识图谱,并基于此开发了问答和推荐模型,具有较高的创新性。
  • 实用性:模型在实际数据集上表现优异,具有较好的应用前景。
  • 技术深度:文章详细介绍了算法模型的设计和实现,对相关领域的研究者有较高的参考价值。

点评: 这篇论文整体创新一般,简单了解下文章研究问题即可,不值得深入分析。

4. [每日新文] MLoRA: Multi-Domain Low-Rank Adaptive Network for CTR Prediction, RecSys, 2024.

MLoRA: 用于点击率预测的多域低秩自适应网络

摘要

点击率(CTR)预测是工业中的一项基本任务,尤其是在电子商务、社交媒体和流媒体中。它直接影响网站收入、用户满意度和用户留存。然而,实际的生产平台通常包含多个领域以满足不同客户的需求。传统的CTR预测模型在多域推荐场景中表现不佳,面临数据稀疏和跨域数据分布差异的挑战。本文提出了一种多域低秩自适应网络(MLoRA),通过为每个领域引入专门的LoRA模块来增强模型在多域CTR预测任务中的性能,并且可以应用于各种深度学习模型。我们在几个多域数据集上评估了所提出的方法。实验结果表明,与最先进的基线相比,MLoRA方法取得了显著的改进。此外,我们在阿里巴巴的生产环境中部署了它,在线A/B测试结果表明其在实际生产环境中的优越性和灵活性。

创新点

  1. 多域低秩自适应网络(MLoRA):提出了一种新的CTR预测框架,通过为每个领域引入低秩自适应模块来提高模型的适应性和性能。
  2. LoRA模块:利用低秩结构对大型预训练模型进行微调,有效学习领域数据的知识,同时减少参数数量。
  3. 模型无关性:MLoRA是一个通用框架,可以轻松应用于各种基于深度学习的CTR模型。

算法模型

  • MLoRA:通过在每个领域中引入LoRA模块,模型能够更有效地学习每个领域的数据分布。
  • LoRA模块:在每个全连接层中注入可训练的低秩矩阵,以实现参数的高效微调。
  • 两阶段训练策略:先在大规模预训练数据上训练基础网络,然后在微调阶段添加MLoRA网络并冻结基础网络,专注于更新A和B以学习每个领域的个性化信息。

实验效果

  • 数据集:在Taobao、Amazon和Movielens数据集上进行了实验。
  • 性能提升:与基线模型相比,MLoRA在所有数据集上都实现了性能提升,平均提升0.5%。
  • 在线A/B测试:在阿里巴巴.COM电子商务网站上部署后,CTR提高了1.49%,订单转化率提高了3.37%,付费买家数量提高了2.71%。

推荐阅读指数:★★★★☆

  • 推荐理由
  • 创新性:MLoRA通过引入LoRA模块,有效地解决了多域CTR预测中的挑战,如数据稀疏和领域间的差异性。
  • 实用性:MLoRA已经在阿里巴巴的生产环境中得到应用,证明了其在实际大规模推荐系统中的有效性和可扩展性。
  • 技术深度:文章详细介绍了MLoRA的设计和实现,以及在多域CTR预测问题上的实验验证,对相关领域的研究者和工程师具有较高的参考价值。

点评: 这篇论文将LoRA应用到点击率预估问题,算法应用创新为主,整体数学模型相对简单,值得一看。

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
4月前
|
机器学习/深度学习 存储 人工智能
【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024
近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
阿里云人工智能平台PAI论文入选OSDI '24
阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案
在讯飞英文学术论文分类挑战赛中使用LightGBM模型进行文本分类的方案,包括数据预处理、特征提取、模型训练及多折交叉验证等步骤,并提供了相关的代码实现。
53 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
7月前
|
机器学习/深度学习 数据采集 人工智能
论文介绍:机器学习中数据集规模增长的极限分析
【5月更文挑战第17天】论文《机器学习中数据集规模增长的极限分析》探讨了数据集大小对AI模型性能的影响,预测语言数据可能在2026年前耗尽,图像数据在2030-2060年可能面临相同问题。研究显示数据积累速度无法跟上数据集增长,可能在2030-2040年间导致训练瓶颈。然而,算法创新和新数据源的发展可能缓解这一问题。[链接](https://arxiv.org/pdf/2211.04325.pdf)
108 2