专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用

简介: 淘宝的搜索和推荐发展到今天,正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化。今年双11,人工智能技术在搜索与推荐场景里有怎样的创新应用,阿里巴巴研究员徐盈辉将在本次在线论坛中和大家分享。
12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。(https://yq.aliyun.com/promotion/139


12月6日晚20:00,来自阿里巴巴集团的研究员徐盈辉将在在线论坛上发表《在线AI技术在搜索与推荐场景的应用》的演讲。

搜索与推荐作为阿里电商平台辅助消费者与商品(卖家)的互动更加趣味化和效率化的智能中枢,不仅仅可以从海量用户行为数据中寻找行为规律,结构化行为序列,并从规律中预测结果,更重要的是给出有效的流量中心化和去中心化的投放决策,从而实 现消费者,卖家,平台三者社会福利的最大化。淘宝的搜索和推荐发展到今天,正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化。今年双11,人工智能技术在搜索与推荐场景里有怎样的创新应用, 阿里巴巴研究员徐盈辉将在本次在线论坛中和大家分享。

为了帮助大家更好地了解讲师及议题,评估本次演讲,云栖社区对讲师进行了采访。

受访嘉宾:
徐盈辉,阿里巴巴研究员,日本丰桥技术科学大学计算机科学博士,阿里搜索事业部搜索排序和基础算法的负责人。他规划和设计了搜索新一代的排序框架体系,建立了集offline-nearline-online三位一体的电商平台个性化搜索体系,推动和完成了搜索实 时在线计算体系的规模化和平台化,在技术的先进性和业务的推动上都取得了突破性成果。
b6dda25711a8b27e044a991db7602128fde88f17
以下为采访正文:
云栖社区:淘宝搜索从大的架构或流程上来说,与传统的搜索引擎有不少相似的地方,除此之外,又有哪些独特性呢?
徐盈辉:淘宝搜索相比于网页搜索的主要差异点在: 
首先淘宝搜索是建立于电商平台之上的,而电商平台的运作目标是希望建立一个三方(买家,卖家,平台) 共盈的体系,更多的应该看成是一个computational economics 平台。
a. 动态性:
动态性的特点与网页搜索的动态性有所不同,商品搜索的动态性主要源自于商业活动的变化,平台的 市场宣传,商家的经营活动以及消费者购买需求,换言之,就是供需的变化;而供需的满足细化到个体, 就需要平台所记录的信息不仅仅停留在商品层面,而是需要记录下消费者 x 商品 这样一个千亿级 规模的信息矩阵;
b. 商业属性:
电子商务平台的搜索具备商业流量的根本属性,商家希望所经营商品通过得到足够的曝光而带来成交; 因此流量资源也就成了商家必争之地;而搜索作为平台交易保证的中流砥柱,核心目标是在保证平台 生态发展的基础上最大化成交规模;
c. 全链路优化
众所周知,相比类似百度这样的网页搜索平台,一个明显的差异是,淘宝搜索平台拥有网购消费者从查询到完成目标商品订单,这样一条完整的行为数据闭合式链路;因此对于用户的一次查询的满意度衡量绝不能止于搜索结果页上看到一个标题相关的商 品而发生了点击来判别,post-click之后的商品详情页上的行为,甚至于进入post-pay之后的评论信息都应该成为度量某商品对于某次查询(query)的满意度影响因子;因此,全链路的行为建模会是淘宝搜索体系相比于网页搜索的重要差异之处;既然谈 到这点了,再多啰嗦两句,京东也是一家做电子商务的公司,也有着不小的规模,那么如何来看淘宝搜索与京东搜索在全链路优化上的差异呢?从京东模式来看,post-pay环节,由于销售,物流仓储的自营性,可以认为是无差异竞争的;而对于淘宝来说, 售后的服务,发货速度,以及纠纷退款等环节是取决于商家与消费者之间的互动来决定的,差异性不言而喻,因此淘宝搜索有必要建立post-pay环节的排序度量因子;
 d. 垂直化
电子商务搜索属于 vertical search 范畴,相比于网页搜索,对于平台上内容的结构化梳理,以及商业平台上积累的买家,卖家和商品关系数据的挖掘都有更高的要求;因此需要建立 micro analysis 和 macro analysis 双位一体的搜索内容加工体系,宏观 分析层面指的是:除了目前已经积累并广泛运用的5级类目之外,完善的商品库建设,spu节点,sku节点,品牌库等,都是必不可少的;微观分析层面则从商品的人气指数,销量指数,作弊指数等角度给出商品自身质量的度量信息;使得搜索结果能够为消 费者提供,不仅仅停留在标题相关层面的服务,可以通过合理的宏观分析带来的数据结构化,实现高效的结果查询,通过细致的微观分析,保证优质的商品优先展示给消费者;

云栖社区:可否简要介绍下淘宝搜索算法架构体系?
徐盈辉:目前搜索算法架构体系是基本形成了三层架构:offline, nearline,online 三层体系,分工协作,保证平台既能适应日常平稳的搜索流量中实现稳定有效的个性化搜索以及推荐,也能够去满足电商平台对促销活动的技术支持,实现在短时高并发 流量下的平台收益最大化;三层的基本功能分别是:
a) Offline:离线模型训练数据收集,过滤,聚合,深层次表达学习,关系模型学习,输出nearline环节, online 环节需要的数据,特征和模型;
b) nearline:搜素技术和算法团队联手,依托于社区flink,自主研发的流式计算引擎,基于parameter server分布式训练框架的在线深度学习和强化学习的训练体系;实现了毫秒级的日志解析, 行为数据抽取,聚合,实时消费者画像描绘,实时人群-商品匹配信号的捕捉;在线机器学习框架: 基于实时用户行为数据,以最小化dynamic regret为目标,秒级模型的更新并实现基于用户累计 行为事件为触发的模型向online服务的高效输出;强化学习框架:用于排序策略决策,展示比例调整;
c) online:主体是根据offline,nearline输出的多粒度,多维度的预测模型进行高效人-货匹配 的打分,从而为用户提供具备良好用户体验的商品展示页面。

云栖社区:议题介绍中有提到,“淘宝搜索和推荐正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化”,为何选择这样的发展方向呢?
徐盈辉:运用机器学习技术来提升搜索/推荐平台的流量投放效率是目前各大互联网公司的主流技术路线,并仍然在随着计算力和数据的规模增长,持续的优化和深入;然这一路线的核心是如何针对单一问题的算法方案的准确度,更多的是通过更精细的定 位样本空间中的特征与目标的correlation来建模,在数据符合独立同分布情况下能够较好完成精准预测的目的;然而随着移动时代的到来,人机交互的便捷,碎片化使用的普遍性,从而很难对变换莫测的用户行为以及瞬息万变的外部环境进行完整的建模。 基于监督学习时代的搜索和推荐,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的商品或店铺;虽然可以运用一些辅助性策略来规避这些问题,但本质上,基于监督学习的大多数搜索/推荐模型都很难彻底解决这类问题。真正的智能化搜 索和推荐,需要作为投放引擎的agent有决策能力,这个决策不是基于单一节点的直接收益来确定,而是当做一个人机交互的过程,消费者与平台的互动看成是一个马尔可夫决策过程,运用强化学习框架,建立一个消费者与系统互动的回路系统,而系统的 决策是建立在最大化过程收益,来达到一个系统与用户的动态平衡。

云栖社区:今年双11的搜索与推荐场景中,技术做了哪些升级?人工智能技术在其中有哪些应用?又有什么样的效果显现呢?
徐盈辉:主要是深度学习和强化学习技术首次在双11得以大规模应用,人工智能技术的应用:
 a. 搜索/推荐的match,ranking模型
 b. 消费者权益相关的红包智能发放
 c. 基于强化学习的实收搜索/推荐排序策略决策模型
 d. Online Wide&deep learning在淘宝搜索的应用
效果上,成交规模带来显著的提升,bucket实验对比上相比于基准效果有将近20%以上的提升。

云栖社区:在本次在线峰会上,该内容适合哪些听众?另外,也请罗列下将要分享内容的关键点
徐盈辉:这次分享适合的对象包括:搜索/推荐 算法研发工程师,大数据分析工程师,机器学习算法工程师;
几个关键点:
电商搜索推荐的技术演变、 阿里搜索推荐的新技术体系、 未来的方向

云栖社区:对于搜索技术开发者的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)
徐盈辉:追根求源,学会failure analysis,实践加理论学习并举;几本技术书籍推荐给朋友们:
 1. 中文: 
周志华:机器学习,李航:统计机器学习
2. 英文: 
Kevin P. Murphy,  Machine Learning: A Probabilistic Perspective
Christopher bishop, Pattern recognition and machine learning
Yoshua Bengio, Deep Learning
Richard S. Sutton, Reinforcement Learning: An introduction 

“2016双11技术创新“在线论坛专题:https://yq.aliyun.com/promotion/139

8767e427e77ab7c119d0a6383f1416e2ba79f8cb

4da97b2a6e9faa41666e4095a723971bc69b691e

论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖。

相关文章
|
4天前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
18 8
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
|
1天前
|
机器学习/深度学习 数据采集 传感器
基于深度学习的图像识别技术在自动驾驶中的应用研究####
本文旨在探讨深度学习技术,特别是卷积神经网络(CNN)在自动驾驶车辆图像识别领域的应用与进展。通过分析当前自动驾驶技术面临的挑战,详细介绍了深度学习模型如何提升环境感知能力,重点阐述了数据预处理、网络架构设计、训练策略及优化方法,并展望了未来发展趋势。 ####
19 6
|
3天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的图像识别技术及其应用###
本文探讨了基于深度学习的图像识别技术,重点介绍了卷积神经网络(CNN)在图像识别中的应用与发展。通过对传统图像识别方法与深度学习技术的对比分析,阐述了CNN在特征提取和分类精度方面的优势。同时,文章还讨论了当前面临的挑战及未来发展趋势,旨在为相关领域的研究提供参考。 ###
9 0
|
3天前
|
机器学习/深度学习 传感器 边缘计算
基于深度学习的图像识别技术在自动驾驶汽车中的应用##
本文深入探讨了深度学习技术在自动驾驶汽车图像识别领域的应用,通过分析卷积神经网络(CNN)、循环神经网络(RNN)等关键技术,阐述了如何利用这些先进的算法来提升自动驾驶系统对环境感知的准确性和效率。文章还讨论了当前面临的挑战,如数据多样性、模型泛化能力以及实时处理速度等问题,并展望了未来发展趋势,包括端到端学习框架、跨模态融合及强化学习方法的应用前景。 --- ##
19 0
|
3天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶领域的应用与挑战####
本文旨在探讨深度学习驱动下的图像识别技术于自动驾驶汽车中的应用现状,重点分析其在环境感知、障碍物检测及路径规划等方面的贡献,并深入剖析该技术面临的数据依赖性、算法泛化能力、实时处理需求等核心挑战。通过综述当前主流算法框架与最新研究成果,本文为推动自动驾驶技术的稳健发展提供理论参考与实践指导。 ####
14 0
|
4天前
|
机器学习/深度学习 自然语言处理 语音技术
探索深度学习中的Transformer模型及其在自然语言处理中的应用
探索深度学习中的Transformer模型及其在自然语言处理中的应用
18 0
|
12天前
|
机器学习/深度学习 人工智能 算法
深度学习在图像识别中的应用与挑战
本文探讨了深度学习技术在图像识别领域的应用,重点分析了卷积神经网络(CNN)的工作原理及其在处理图像数据方面的优势。通过案例研究,展示了深度学习如何提高图像识别的准确性和效率。同时,文章也讨论了当前面临的主要挑战,包括数据不足、过拟合问题以及计算资源的需求,并提出了相应的解决策略。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
本文旨在通过深入浅出的方式,为读者揭示卷积神经网络(CNN)的神秘面纱,并展示其在图像识别领域的实际应用。我们将从CNN的基本概念出发,逐步深入到网络结构、工作原理以及训练过程,最后通过一个实际的代码示例,带领读者体验CNN的强大功能。无论你是深度学习的初学者,还是希望进一步了解CNN的专业人士,这篇文章都将为你提供有价值的信息和启发。
|
8天前
|
机器学习/深度学习 数据采集 测试技术
深度学习在图像识别中的应用
本篇文章将探讨深度学习在图像识别中的应用。我们将介绍深度学习的基本原理,以及如何使用深度学习进行图像识别。我们将通过一个简单的代码示例来演示如何使用深度学习进行图像识别。这篇文章的目的是帮助读者理解深度学习在图像识别中的作用,并学习如何使用深度学习进行图像识别。
下一篇
无影云桌面