阿里妈妈首次公开新一代智能广告检索模型,重新定义传统搜索框架

简介: 阿里妈妈提出一种超出关键词和相关性的搜索框架:电子商务搜索中的个性化广告检索框架。这个新的搜索广告智能检索模型引入用户行为异构图挖掘、机器学习等相关技术,通过模型学习的方式智能构建索引,解决了传统搜索广告检索系统不能解决的种种痛点。

随着互联网发展,搜索广告已经成为一个庞大并且不断增长的产业。每一次搜索广告的展示、点击和转化都需要三个参与方(广告商、用户和平台)的密切合作。平台是用户搜索请求和广告商投放的广告之间的桥梁,进行着流量匹配、广告展现等工作。其中,广告检索模块负责理解用户的搜索意图,快速准确地从海量广告中检索出一个小规模的高质量广告候选集。广告检索模块需要兼顾系统的效果与效率,因此在算法工作中存在着巨大的技术挑战。

b71a1e9d74820557606de92d81fed86c01121ea9

图1:搜索广告系统由三方参与:广告商、用户和系统平台。

在传统的搜索广告系统中,广告商必须为自己的广告选择竞价关键词。平台进行广告检索时会受到竞价关键词的约束。如果广告商没有事先为广告购买相应的关键词,那么即使用户搜索请求与广告紧密相关,平台也不会检索回这些广告。但是,受限于市场信息的缺失和投放管理的巨大成本,广告商有时并不能及时准确地为自己的广告选择出最合适的关键词。在这种情况下,广告检索算法不能实现最优的流量匹配,给广告商、用户和平台三方均带来了损失。

此外,传统的搜索广告检索模型只关注于搜索请求与广告之间的相关性;这往往和平台的目标(RPM、CTR、GMV等)并不完全一致。如何在考虑相关性的同时,兼顾平台的目标,是广告检索模型需要解决的难点。

近年来,越来越多的个性化信息被引入电商搜索广告系统,如用户在平台上的浏览、点击、交易等行为。一方面,这些个性化信息能够帮助广告检索模型更好地理解用户的搜索意图。但另一方面,个性化信息也给广告检索带了新的挑战:面对从各种复杂丰富的个性化信号通道检索回的广告,检索模型需要能够高效、准确地对其按照统一标准快速排序。

为了解决上述各种难题和挑战,阿里妈妈团队提出了一种新的搜索广告个性化检索系统。新的搜索检索系统引入用户行为异构图挖掘、机器学习等相关技术,通过模型学习的方式智能构建索引,取得了出色的效果。关于该工作的论文 Beyond Keywords and Relevance: A Personalized Ad Retrieval Framework in E-Commerce Sponsored Search 已被互联网领域顶级国际会议WWW 2018接收( https://arxiv.org/abs/1712.10110 )。

d66b03b8f2e045b955d48b9e00170569495007ec

作者:闫肃,林伟,吴天舒,肖道锐,吴波,刘凯鹏

系统框架

5fa3627efcfb88e39506e617e4a4b0a056038704

图2:个性化广告检索系统

我们提出的搜索广告个性化检索系统,首先使用用户在平台上的历史行为构建出一张庞大复杂的用户行为异构图。异构图中节点分别表示“用户搜索信号”、“广告检索键”和“广告”,边分别表示“用户搜索意图信号改写”关系和“广告召回”关系。接着,检索系统面向平台RPM、CTR等指标,学习异构图中边的权重,挖掘出重要的改写关系和广告召回关系。这样,通过对异构图的深入挖掘,检索系统同时进行了“用户搜索意图信号改写”和“广告召回”两个检索子任务的统一联合学习。最后,检索系统根据模型的边挖掘结果,自动构建相应的“改写索引”和“广告召回索引”。通过两个模型智能构建的索引,检索系统将用户行为异构图和模型挖掘结果存储下来,实现了对线上搜索请求的高效检索。由于新的智能检索模型不再强制要求广告商购买关键词,所以新的检索系统使用OCPC策略,在保证广告商ROI的基础上,决定广告的点击收费。

异构图初始化

3062bc70bfaeee2169148651214c320132730c5e

图3:用户行为异构图图示例。

图中包含了三种节点:用户搜索信号、广告检索键和广告。用户搜索信号和广告检索键之间的边表示改写,广告检索键和广告之间的边表示广告海选。

异构图中的节点

首先,我们使用用户历史点击日志初始化异构图。如图3所示,异构图中包含三种不同的节点:Signal,Key和Ad

d47e62d2b349aca45e42305ed6714efbe5ed61d9Signal节点 :异构图中的Signal节点表示用户的搜索意图。除了搜索Query外,我们还引入了用户个性化信息来扩充搜索信号。举例而言,“Real-time Click Item”表示用户在同一Query下的前置点击商品。通过引入个性化信号,我们的召回算法能够充分地挖掘Query、Keyword之外的信息,更好的理解用户的潜在搜索意图,进而达成更好的流量匹配。
d47e62d2b349aca45e42305ed6714efbe5ed61d9Key节点 :异构图中的Key节点表示Ad-selecting索引中的Key。在传统的搜索广告系统中,Key仅仅是广告商购买的竞价关键词。在我们的召回框架中,我们同样将个性化信息引入了Key的表达中。从某种角度而言,这些Key可以被视作广告的“属性”。通过额外的个性化信息,我们可以使用更多更合适的“属性”来表达和描述广告。考虑到召回性能,Key不能使用如“性别”、“年龄”这些过泛的节点。因此,我们主要使用“Query”、“Item”等作为Key节点。
d47e62d2b349aca45e42305ed6714efbe5ed61d9Ad节点 :异构图中的Ad节点表示被召回和展示的广告。

异构图中的边

异构图中包含两种不同类型的边:Signal和Key之间的边为Rewriting边,Key和Ad之间的边为Ad-selecting边。

d47e62d2b349aca45e42305ed6714efbe5ed61d9Rewriting边 :Signal节点和Key节点之间的边,表示改写关系。如果一个Signal节点和一个Key节点之间有边相连,则表示我们可以将该Signal改写为该Key。
d47e62d2b349aca45e42305ed6714efbe5ed61d9Ad-selecting边 :Key节点和Ad节点之间的边,表示广告检索关系。如果一个Ad节点和一个Key节点之间有边相连,则表示我们可以通过该Key检索出该Ad。

异构图初始化方法

阿里妈妈搜索直通车业务有着巨大的体量和规模庞大的用户数据,用户行为异构图庞大复杂,包含了上百亿的节点和上万亿的边,使得模型训练非常困难。为了兼顾检索系统的的效果和性能,我们提出了多种异构图初始化方法,在尽量保留重要关系的前提下,实现了对异构图的剪枝,给模型的训练提供了良好的起点。

afba73429a4867fc802eba0b41d8e9e38b37e1c8

图4:用户行为异构图庞大复杂,包含上百亿的节点和上千亿的边。

和后面模型面向RPM、CTR等目标不同,异构图初始化聚焦于节点之间的相关性。我们给出几种不同的初始化方法。

d47e62d2b349aca45e42305ed6714efbe5ed61d9点击数 :我们统计节点之间的点击数,选出点击数大于一定阈值的边作为异构图进行异构图初始化。

d47e62d2b349aca45e42305ed6714efbe5ed61d9Information Value: Information Value(IV)是一种衡量变量重要性的良好指标。我们对IV公式进行简单修改,用于异构图初始化。

ab6d01369d6dda214b9bde8f44b99d743e9aa848

d47e62d2b349aca45e42305ed6714efbe5ed61d9Session 相关性:基于Session的方法常常被用来衡量节点相关性。如图4所示,我们将用户点击日志重整为Session形式,并使用Session来刻画节点之间的相关性。同时,我们使用类目信息来保证同一Session下的节点是真正的彼此相关。

2d8848f247259dff0041f0080b0d944bd022255e

图5:基于Session的相关性示例。

模型训练

在初始化的异构图基础上,我们面向RPM/CTR进行模型训练,学习出边的权重,挖掘出图最重要的关系。

首先,从系统广告展示日志中,我们构建<{signal}, ad, label>形式的样本。其中,label表示该ad有没有被用户点击。接着,通过从初始化的异构图中挖掘signal->key->ad路径,我们将<{signal}, ad, label>扩展为<{signal->key}, {key->ad}, label>。其中{signal->key}表示Rewriting边,{key->ad}表示Ad-selecting边。这样,我们就得到了训练和测试数据,并可以在边上设计特征。

在搜索广告检索阶段,模型训练面临很多挑战。例如,为了提高检索效率,模型无法获取足够多的信息或者使用过于复杂的特征。因此,在新的检索模型中,我们有针对性地设计了两种“粒度”不同特征

d47e62d2b349aca45e42305ed6714efbe5ed61d9Sparse特征 :我们直接使用稀疏的ID作为特征。我们为初始异构图中的边上分配ID并直接使用与模型。Sparse特征有着很高的特征空间,是非常细粒度的特征,但是缺乏泛化能力。
d47e62d2b349aca45e42305ed6714efbe5ed61d9Continuous特征 :我们使用大量的统计值(如CLICK数,PV数,CTR等)作为特征来描述边。Continuous特征是低纬度特征,能够帮助我们的模型提高覆盖度和稳定性。

由于样本的label是广告是否被click,直接训练模型即是面向CTR的模型。此外,我们通过使用广告价格给样本进行加权,可以将模型变为面向RPM的模型。具体而言,对于所有的正例(clicked),我们使用其广告价格进行加权;而对所有的负例(unclicked),则保持不变。这样,模型的目标变为:

10bfcb8309b970b07bae53079f0a5e45bb7791cc

特殊地,当两个广告的RPM相同,模型会倾向选择CTR高的广告。

线上使用和效果展示

在线上使用时,我们通过两个索引,Rewriting索引和Ad-selecting索引存储异构图和模型结果。其中Rewriting索引存储Rewriting边,Ad-selecting索引存储Ad-selecting边。模型对边的打分同样存于两个倒排索引中,用于线上快速地面向RPM/CTR排序。

由于不再依赖广告商买词,我们使用OCPC策略为广告出价:

3c1cd7627d08b91127f6fb02f70ef70cad2786ac

其中TakingRate表示广告商愿意拿出成交额的多大比例用于推广。当TakingRate=1/ROI时,OCPC出价方式和之前广告商买词方式的ROI持平。

效果展示

6b85403bf5be82dfb6c44f18c992aa8fb1f83f4b

图6:在考虑相关性的同时,模型智能构建的线上庞大索引。

新的搜索广告个性化检索系统,通过模型学习的方式,自动构建出庞大的Rewriting索引和Ad-selecting索引,兼顾了平台收益和用户体验。

d39465e3a478822df49286ed56aafb66ef68a321

图7:在线效果。

在直通车平台上,新的搜索广告检索系统取得了良好的效果,其中CTR +2.0%,RPM +8.0%,PVR +1.2%。这给广告商、用户和平台带来了三赢:新的搜索广告检索系通过OCPC的方式自动为广告出价,在保证了广告商的ROI前提下,把广告商从繁重的买词任务中解放了出来;通过引入丰富的个性化信号,新的搜索广告检索系能够更好地理解用户的搜索意图,达成更准确的流量匹配,提升了用户体验;新的搜索广告检索系不再单纯以相关性为目标,而是综合考虑平台的目标和用户的体验,提升了平台收益,也维护了平台的生态环境。


原文发布时间为:2018-04-28

本文作者:闫肃,林伟,吴天舒,肖道锐,吴波,刘凯鹏

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:阿里妈妈首次公开新一代智能广告检索模型,重新定义传统搜索框架

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合
【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合
33 1
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测
【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测
90 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习
【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习
26 0
|
1月前
|
运维 监控 搜索推荐
【电商搜索】现代工业级电商搜索技术-Ha3搜索引擎平台简介
【电商搜索】现代工业级电商搜索技术-Ha3搜索引擎平台简介
35 0
|
4月前
|
语音技术 计算机视觉
|
机器学习/深度学习 存储 人工智能
比Faiss更胜一筹?达摩院自主研发的向量检索引擎Proxima首次公开!
淘宝搜索推荐、视频搜索背后使用了什么样的检索技术?非结构化数据检索,向量检索,以及多模态检索,它们到底解决了什么问题?今天由阿里达摩院的科学家从业务问题出发,抽丝剥茧,深度揭秘达摩院内部技术,向量检索引擎 Proxima,以及相关领域的现状、挑战和未来。
3389 0
比Faiss更胜一筹?达摩院自主研发的向量检索引擎Proxima首次公开!
|
自然语言处理 搜索推荐 算法
亿级用户的平台是如何使用词嵌入来建立推荐系统的
亿级用户的平台是如何使用词嵌入来建立推荐系统的
141 0
亿级用户的平台是如何使用词嵌入来建立推荐系统的
|
6月前
|
算法 关系型数据库 分布式数据库
如何用 PolarDB 整合age算法插件, 实现图式搜索加速 - 刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB结合图式算法, 实现高效率的刑侦、社交、风控、族谱、推荐等业...
208 0
|
存储 SQL 并行计算
如何用 PolarDB 整合age算法插件, 实现图式搜索加速 - 刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索
PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力. 本文将介绍PolarDB结合图式算法, 实现高效率的刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索.
400 0
|
机器学习/深度学习 算法
阿里首次将用户手势数据用于电商场景!淘宝提出的算法DIPN秒杀传统模型
用户消费行为预测已然是电商领域的经典问题。通过对用户实时意图的理解,我们可以感知用户当下正处于哪个阶段,比如是在买还是在逛,从而可以根据不同阶段制定不同的营销和推荐策略,进而提升营销和推荐效果。
2977 0
下一篇
无影云桌面