专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用

简介: 淘宝的搜索和推荐发展到今天,正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化。今年双11,人工智能技术在搜索与推荐场景里有怎样的创新应用,阿里巴巴研究员徐盈辉将在本次在线论坛中和大家分享。
12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。(https://yq.aliyun.com/promotion/139


12月6日晚20:00,来自阿里巴巴集团的研究员徐盈辉将在在线论坛上发表《在线AI技术在搜索与推荐场景的应用》的演讲。

搜索与推荐作为阿里电商平台辅助消费者与商品(卖家)的互动更加趣味化和效率化的智能中枢,不仅仅可以从海量用户行为数据中寻找行为规律,结构化行为序列,并从规律中预测结果,更重要的是给出有效的流量中心化和去中心化的投放决策,从而实 现消费者,卖家,平台三者社会福利的最大化。淘宝的搜索和推荐发展到今天,正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化。今年双11,人工智能技术在搜索与推荐场景里有怎样的创新应用, 阿里巴巴研究员徐盈辉将在本次在线论坛中和大家分享。

为了帮助大家更好地了解讲师及议题,评估本次演讲,云栖社区对讲师进行了采访。

受访嘉宾:
徐盈辉,阿里巴巴研究员,日本丰桥技术科学大学计算机科学博士,阿里搜索事业部搜索排序和基础算法的负责人。他规划和设计了搜索新一代的排序框架体系,建立了集offline-nearline-online三位一体的电商平台个性化搜索体系,推动和完成了搜索实 时在线计算体系的规模化和平台化,在技术的先进性和业务的推动上都取得了突破性成果。
b6dda25711a8b27e044a991db7602128fde88f17
以下为采访正文:
云栖社区:淘宝搜索从大的架构或流程上来说,与传统的搜索引擎有不少相似的地方,除此之外,又有哪些独特性呢?
徐盈辉:淘宝搜索相比于网页搜索的主要差异点在: 
首先淘宝搜索是建立于电商平台之上的,而电商平台的运作目标是希望建立一个三方(买家,卖家,平台) 共盈的体系,更多的应该看成是一个computational economics 平台。
a. 动态性:
动态性的特点与网页搜索的动态性有所不同,商品搜索的动态性主要源自于商业活动的变化,平台的 市场宣传,商家的经营活动以及消费者购买需求,换言之,就是供需的变化;而供需的满足细化到个体, 就需要平台所记录的信息不仅仅停留在商品层面,而是需要记录下消费者 x 商品 这样一个千亿级 规模的信息矩阵;
b. 商业属性:
电子商务平台的搜索具备商业流量的根本属性,商家希望所经营商品通过得到足够的曝光而带来成交; 因此流量资源也就成了商家必争之地;而搜索作为平台交易保证的中流砥柱,核心目标是在保证平台 生态发展的基础上最大化成交规模;
c. 全链路优化
众所周知,相比类似百度这样的网页搜索平台,一个明显的差异是,淘宝搜索平台拥有网购消费者从查询到完成目标商品订单,这样一条完整的行为数据闭合式链路;因此对于用户的一次查询的满意度衡量绝不能止于搜索结果页上看到一个标题相关的商 品而发生了点击来判别,post-click之后的商品详情页上的行为,甚至于进入post-pay之后的评论信息都应该成为度量某商品对于某次查询(query)的满意度影响因子;因此,全链路的行为建模会是淘宝搜索体系相比于网页搜索的重要差异之处;既然谈 到这点了,再多啰嗦两句,京东也是一家做电子商务的公司,也有着不小的规模,那么如何来看淘宝搜索与京东搜索在全链路优化上的差异呢?从京东模式来看,post-pay环节,由于销售,物流仓储的自营性,可以认为是无差异竞争的;而对于淘宝来说, 售后的服务,发货速度,以及纠纷退款等环节是取决于商家与消费者之间的互动来决定的,差异性不言而喻,因此淘宝搜索有必要建立post-pay环节的排序度量因子;
 d. 垂直化
电子商务搜索属于 vertical search 范畴,相比于网页搜索,对于平台上内容的结构化梳理,以及商业平台上积累的买家,卖家和商品关系数据的挖掘都有更高的要求;因此需要建立 micro analysis 和 macro analysis 双位一体的搜索内容加工体系,宏观 分析层面指的是:除了目前已经积累并广泛运用的5级类目之外,完善的商品库建设,spu节点,sku节点,品牌库等,都是必不可少的;微观分析层面则从商品的人气指数,销量指数,作弊指数等角度给出商品自身质量的度量信息;使得搜索结果能够为消 费者提供,不仅仅停留在标题相关层面的服务,可以通过合理的宏观分析带来的数据结构化,实现高效的结果查询,通过细致的微观分析,保证优质的商品优先展示给消费者;

云栖社区:可否简要介绍下淘宝搜索算法架构体系?
徐盈辉:目前搜索算法架构体系是基本形成了三层架构:offline, nearline,online 三层体系,分工协作,保证平台既能适应日常平稳的搜索流量中实现稳定有效的个性化搜索以及推荐,也能够去满足电商平台对促销活动的技术支持,实现在短时高并发 流量下的平台收益最大化;三层的基本功能分别是:
a) Offline:离线模型训练数据收集,过滤,聚合,深层次表达学习,关系模型学习,输出nearline环节, online 环节需要的数据,特征和模型;
b) nearline:搜素技术和算法团队联手,依托于社区flink,自主研发的流式计算引擎,基于parameter server分布式训练框架的在线深度学习和强化学习的训练体系;实现了毫秒级的日志解析, 行为数据抽取,聚合,实时消费者画像描绘,实时人群-商品匹配信号的捕捉;在线机器学习框架: 基于实时用户行为数据,以最小化dynamic regret为目标,秒级模型的更新并实现基于用户累计 行为事件为触发的模型向online服务的高效输出;强化学习框架:用于排序策略决策,展示比例调整;
c) online:主体是根据offline,nearline输出的多粒度,多维度的预测模型进行高效人-货匹配 的打分,从而为用户提供具备良好用户体验的商品展示页面。

云栖社区:议题介绍中有提到,“淘宝搜索和推荐正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化”,为何选择这样的发展方向呢?
徐盈辉:运用机器学习技术来提升搜索/推荐平台的流量投放效率是目前各大互联网公司的主流技术路线,并仍然在随着计算力和数据的规模增长,持续的优化和深入;然这一路线的核心是如何针对单一问题的算法方案的准确度,更多的是通过更精细的定 位样本空间中的特征与目标的correlation来建模,在数据符合独立同分布情况下能够较好完成精准预测的目的;然而随着移动时代的到来,人机交互的便捷,碎片化使用的普遍性,从而很难对变换莫测的用户行为以及瞬息万变的外部环境进行完整的建模。 基于监督学习时代的搜索和推荐,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的商品或店铺;虽然可以运用一些辅助性策略来规避这些问题,但本质上,基于监督学习的大多数搜索/推荐模型都很难彻底解决这类问题。真正的智能化搜 索和推荐,需要作为投放引擎的agent有决策能力,这个决策不是基于单一节点的直接收益来确定,而是当做一个人机交互的过程,消费者与平台的互动看成是一个马尔可夫决策过程,运用强化学习框架,建立一个消费者与系统互动的回路系统,而系统的 决策是建立在最大化过程收益,来达到一个系统与用户的动态平衡。

云栖社区:今年双11的搜索与推荐场景中,技术做了哪些升级?人工智能技术在其中有哪些应用?又有什么样的效果显现呢?
徐盈辉:主要是深度学习和强化学习技术首次在双11得以大规模应用,人工智能技术的应用:
 a. 搜索/推荐的match,ranking模型
 b. 消费者权益相关的红包智能发放
 c. 基于强化学习的实收搜索/推荐排序策略决策模型
 d. Online Wide&deep learning在淘宝搜索的应用
效果上,成交规模带来显著的提升,bucket实验对比上相比于基准效果有将近20%以上的提升。

云栖社区:在本次在线峰会上,该内容适合哪些听众?另外,也请罗列下将要分享内容的关键点
徐盈辉:这次分享适合的对象包括:搜索/推荐 算法研发工程师,大数据分析工程师,机器学习算法工程师;
几个关键点:
电商搜索推荐的技术演变、 阿里搜索推荐的新技术体系、 未来的方向

云栖社区:对于搜索技术开发者的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)
徐盈辉:追根求源,学会failure analysis,实践加理论学习并举;几本技术书籍推荐给朋友们:
 1. 中文: 
周志华:机器学习,李航:统计机器学习
2. 英文: 
Kevin P. Murphy,  Machine Learning: A Probabilistic Perspective
Christopher bishop, Pattern recognition and machine learning
Yoshua Bengio, Deep Learning
Richard S. Sutton, Reinforcement Learning: An introduction 

“2016双11技术创新“在线论坛专题:https://yq.aliyun.com/promotion/139

8767e427e77ab7c119d0a6383f1416e2ba79f8cb

4da97b2a6e9faa41666e4095a723971bc69b691e

论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖。

相关文章
|
2天前
|
机器学习/深度学习 运维 监控
深度学习在图像识别中的应用与挑战
【4月更文挑战第25天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉领域进步的核心动力。本文旨在探讨深度学习技术在图像识别任务中的创新应用及其面临的主要挑战。我们将首先回顾深度学习的基本原理和关键技术,随后通过实际案例分析其在图像分类、目标检测及语义分割等方面的应用效果。最后,文中将讨论当前技术瓶颈,如数据不平衡、模型泛化能力以及计算资源限制等,并提出可能的解决方案。
|
2天前
|
机器学习/深度学习 自动驾驶 算法
探索基于深度学习的图像识别在自动驾驶中的应用
【4月更文挑战第25天】 随着人工智能技术的飞速发展,深度学习已成为推动自动驾驶领域革新的核心力量。本文旨在深入探讨深度学习技术在图像识别领域的最新进展及其在自动驾驶系统中的实际应用。通过分析卷积神经网络(CNN)和递归神经网络(RNN)等先进算法,我们揭示了如何有效提升自动驾驶汽车在复杂环境中的视觉感知能力。文中还将讨论深度学习模型在处理实时数据时所面临的挑战,以及为解决这些挑战而采取的创新方法。
|
3天前
|
机器学习/深度学习 安全 计算机视觉
深度学习在图像识别中的应用与挑战
【4月更文挑战第24天】 随着计算机视觉技术的飞速发展,深度学习已成为推动图像识别领域进步的核心动力。本文旨在探讨深度学习技术在图像识别中的关键应用,并分析当前面临的主要挑战。通过回顾卷积神经网络(CNN)的基础架构及其在图像分类、目标检测和语义分割中的创新应用,文章揭示了深度学习模型如何优化视觉信息处理流程。同时,针对训练数据需求、计算资源限制、模型泛化能力及对抗性攻击等问题,本文提出了一系列解决策略和技术方向,为未来研究提供了参考框架。
8 0
|
3天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【4月更文挑战第24天】 随着人工智能技术的飞速发展,深度学习在图像处理领域取得了显著成果,特别是在自动驾驶系统中的应用。本文首先介绍了深度学习的基本概念和关键技术,然后详细阐述了卷积神经网络(CNN)在图像识别中的优势和应用,最后探讨了深度学习在自动驾驶系统中的挑战和未来发展趋势。
|
3天前
|
机器学习/深度学习 数据采集 自动驾驶
深度学习在图像识别中的应用与挑战
【4月更文挑战第24天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉领域进步的核心动力。本文旨在探讨深度学习在图像识别任务中的关键技术、应用实例以及面临的主要挑战。我们将从卷积神经网络(CNN)的基本原理出发,剖析其在图像分类、目标检测和语义分割等方面的具体应用,并讨论数据增强、模型泛化及对抗性攻击等现实问题对深度学习模型性能的影响。通过综合分析和案例研究,本文为读者提供了一个关于深度学习在图像识别领域应用现状和未来趋势的全面视角。
|
3天前
|
机器学习/深度学习 算法 自动驾驶
深度学习在图像识别中的应用与挑战
【4月更文挑战第24天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉进步的重要力量。本文将深入探讨深度学习技术在图像识别领域的应用现状,分析其面临的主要挑战,并提出未来可能的发展方向。我们将从卷积神经网络(CNN)的基础结构出发,逐步剖析其在图像分类、目标检测及语义分割等任务中的实际应用,并讨论数据增强、迁移学习等优化策略。此外,文章还将针对计算资源需求高、模型泛化能力以及对抗性攻击等问题进行详细论述。
|
3天前
|
机器学习/深度学习 边缘计算 监控
深度学习赋能智能监控:图像识别技术的革新与应用
【4月更文挑战第23天】 随着人工智能的迅猛发展,深度学习技术在图像处理领域取得突破性进展,特别是在智能监控系统中,基于深度学习的图像识别已成为提升系统智能化水平的核心动力。本文旨在探讨深度学习如何优化智能监控系统中的图像识别过程,提高监控效率和准确性,并分析其在不同应用场景下的具体实施策略。通过深入剖析关键技术、挑战及解决方案,本文为读者提供了一个关于深度学习图像识别技术在智能监控领域应用的全面视角。
|
3天前
|
机器学习/深度学习 存储 边缘计算
深度学习在图像识别中的应用与挑战
【4月更文挑战第23天】 随着人工智能技术的飞速发展,深度学习作为其重要分支之一,在图像识别领域取得了显著的成果。本文将探讨深度学习在图像识别中的应用,分析其优势和面临的挑战,并展望未来的发展趋势。
|
5天前
|
机器学习/深度学习 数据采集 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【4月更文挑战第21天】 本文章深入探讨了深度学习技术在自动驾驶车辆图像识别领域的应用。不同于传统的摘要方式,本文将直接点出研究的核心价值和实际应用成果。我们专注于卷积神经网络(CNN)的创新设计,其在复杂道路场景下的行人和障碍物检测中的高效表现,以及这些技术如何整合到自动驾驶系统中以增强安全性和可靠性。通过实验验证,我们的模型在公开数据集上达到了行业领先水平的准确率,并且在真实世界的测试场景中展现了卓越的泛化能力。
|
6天前
|
机器学习/深度学习 算法 云计算
深度学习在图像识别中的应用与挑战
【4月更文挑战第21天】 随着计算机视觉技术的飞速发展,深度学习已经成为图像识别任务的核心动力。本文旨在探讨深度学习技术在图像识别领域的应用进展,分析其面临的主要挑战,并提出可能的解决方案。通过对卷积神经网络(CNN)的深入研究,我们揭示了其在图像分类、目标检测和语义分割中的关键作用。同时,数据不平衡、模型泛化能力和计算资源限制等问题也被详细讨论。文章最终指出了未来研究的方向,包括网络结构的优化、无监督学习的发展以及跨领域知识迁移的可能性。