【近战2】移动电商搜索个性化技术-阿里云开发者社区

【近战2】移动电商搜索个性化技术

2015-12-13 9993

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

【编者按】好的技术实战分享从来不因为时间的流失而褪色。2011年开始运营的阿里技术沙龙共积累35期，近100位深度实战培训资源（PPT+视频）让很多朋友大呼过瘾。接棒阿里技术沙龙，云栖社区特别挑选最具人气的12场深度实战分享组成【近战】的第一个系列。其中包含新浪微博、淘宝搜索、美团、美丽说、淘宝推荐、小米、支付宝、阿里云、淘宝无线在内，涵盖建模、个性化推荐、排序学习、系统优化、数据监控、流量优化、架构探索等多方面一线经验总结。

以下为【近战】第2篇，移动电商搜索个性化技术。

移动端搜索流量保持高速增长，移动搜索与桌面搜索互为补充，使得消费者的网购行为得以进一步普及化和深入化。本次演讲主要介绍淘宝搜索技术如何思考移动端搜索带来的技术挑战，如何来结合移动端设备私有化，使用时间碎片化，输入模式的多样化，交互方式的便捷化等特点来优化移动端搜索，及个性化在移动搜索中的应用。

图1

图1是移动视角的基本结构图。

图2

图2是移动搜索产品形态。

个性化体系结构

个性化搜索面临的挑战有很多：

大数据，稀疏，长尾，噪音：

淘宝上海量的商品，针对个体而言，发生行为的商品有限，稀疏度在百万分之一，甚至更低。

用户行为模式的挖掘和利用：

网购行为的复杂性，如何准确的描述用户的兴趣和特色，包括长短期兴趣等？ People change over time。

冷启动：

新用户，新商品。

多样性与精确性的两难困境：

Interestingness v. relevance ，Need Serendipity

用户界面与用户体验：

个性化体验的可解释性。

系统的挑战性

评估的挑战性

个性化搜索误区：

千人千面并非意味着，去追求单纯个体的个性化体验，个性化搜索是立足于提升整体用户的个性化体验；

Personalization != customization；

勿忘行为建模的基本假设——hypothesis：接受商品 à 接受他得所有属性；

过度个性化——搜索场景的个性化：“to personalize or not to personalize “，Explore & Exploitation ；

主观性 vs. 客观性——“data driven”，购物行为所表现的个性化特点！= 用户的物理个性化特征。

图3

图3展示了个性化技术的魅力。

图4

图4是鸟瞰个性化体系。

图5

图5为个性化体系框图。Offline：离线模型训练数据收集，过滤, 聚合，特征ID化，利用batch-learning产出nearline环节，online环节所需要的模型。Near-line：

构建于流式计算体系的实时日志解析，行为特征抽取，聚合，实时用户profile预测，实时人群-商品累积行为特征计算，离散化处理；更新在线排序计算依赖的实时字段，UPS中实时userprofile字段，引擎中的商品正排字段；构建基于mini-batch的在线学习模型，增强系统的适应新数据的能力和explore能力；实时反作弊。Online：各个排序维度模型的在线预测；多个排序因素的在线融合；EE 策略。

个性化体系的移动元素：

查询意图——时间，地点，逛/搜；pull or push。

用户肖像——移动端特色数据；跨屏行为建模，实时肖像特征。

P（满意|query,用户，商品）。

实时个性化。

E&E。

Query/User 意图识别

图6和图7是Query/User 意图识别，

图6

图7

图8

图8为Query 的隐含个性化需求。

个性化数据

图9

如图9，私有化/移动化/社交化，跨屏行为、实时用户肖像。

图10

如图10，用户个性化体系的实时用户DNA。

图11

图11是个性化体系的实时用户DNA，采用滑窗方式抽取训练样本，窗口内的行为中前面n-1个提取特征，最后一个当作目标。

个性化模型

图12

如图12，浏览和交互模式：自上而下的串行模型。

个性化模型的问题定义：个性化模型目标是，

。

如何考虑移动场景下浏览和交互模式下产生的 bias ？串行浏览模式下：有效点击量化模型（UCM）；有效pv量化模型（UBM）。

有效曝光量化模型 （UBM）：

参考： A User Browsing Model to Predict Search Engine Click Data from Past Observations， Georges E. Dupret，Benjamin Piwowarski， SIGIR’08

有效点击量化模型 （UCM）:

参考： Modeling dwell time to predict click-level satisfaction，Youngho Kim, Ahmed Hassan, Ryen W. White , and Imed Zitouni， WSDM 2014

图13

图13为UBM&UCM的结果分析。

图14

图14为个性化模型图。

实时个性化

图15

如图15，流量大，屏幕小，行为特点：碎片化，随时随地。

图16

如图16，互联网机器学习需要“上线”，当把学到的模型投入产品，人的行为会受模型影响，数据分布也会发生变化。

图17

图17为移动搜索的实时计算。

个性化的E&E

图18

如图18， a) 设计有效的个性化探索维度。 b) explore & exploitation的控制比例。c) 根据业务目标制定合理reward和regret量化函数。

图19

图19列出来未来的挑战，欢迎大家一起来讨论。

分享者介绍：

徐盈辉：日本丰桥技术科学大学计算机科学博士，2005年加入理光日本中央研究所，从事跨媒体检索、图像识别以及自然语言方面的研究。2005年度日本自然语言学会年度最佳论文奖，在国际学士会议发表多篇论文，日美中公开专利近20项；2012年加入阿里，资深算法专家，主导并推动大淘宝平台的搜索体系升级，与搜索技术团队的工程师一起建立起集offline-nearline-online三位一体的电商平台个性化搜索体系。