专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用

简介: 淘宝的搜索和推荐发展到今天,正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化。今年双11,人工智能技术在搜索与推荐场景里有怎样的创新应用,阿里巴巴研究员徐盈辉将在本次在线论坛中和大家分享。
12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。(https://yq.aliyun.com/promotion/139


12月6日晚20:00,来自阿里巴巴集团的研究员徐盈辉将在在线论坛上发表《在线AI技术在搜索与推荐场景的应用》的演讲。

搜索与推荐作为阿里电商平台辅助消费者与商品(卖家)的互动更加趣味化和效率化的智能中枢,不仅仅可以从海量用户行为数据中寻找行为规律,结构化行为序列,并从规律中预测结果,更重要的是给出有效的流量中心化和去中心化的投放决策,从而实 现消费者,卖家,平台三者社会福利的最大化。淘宝的搜索和推荐发展到今天,正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化。今年双11,人工智能技术在搜索与推荐场景里有怎样的创新应用, 阿里巴巴研究员徐盈辉将在本次在线论坛中和大家分享。

为了帮助大家更好地了解讲师及议题,评估本次演讲,云栖社区对讲师进行了采访。

受访嘉宾:
徐盈辉,阿里巴巴研究员,日本丰桥技术科学大学计算机科学博士,阿里搜索事业部搜索排序和基础算法的负责人。他规划和设计了搜索新一代的排序框架体系,建立了集offline-nearline-online三位一体的电商平台个性化搜索体系,推动和完成了搜索实 时在线计算体系的规模化和平台化,在技术的先进性和业务的推动上都取得了突破性成果。
b6dda25711a8b27e044a991db7602128fde88f17
以下为采访正文:
云栖社区:淘宝搜索从大的架构或流程上来说,与传统的搜索引擎有不少相似的地方,除此之外,又有哪些独特性呢?
徐盈辉:淘宝搜索相比于网页搜索的主要差异点在: 
首先淘宝搜索是建立于电商平台之上的,而电商平台的运作目标是希望建立一个三方(买家,卖家,平台) 共盈的体系,更多的应该看成是一个computational economics 平台。
a. 动态性:
动态性的特点与网页搜索的动态性有所不同,商品搜索的动态性主要源自于商业活动的变化,平台的 市场宣传,商家的经营活动以及消费者购买需求,换言之,就是供需的变化;而供需的满足细化到个体, 就需要平台所记录的信息不仅仅停留在商品层面,而是需要记录下消费者 x 商品 这样一个千亿级 规模的信息矩阵;
b. 商业属性:
电子商务平台的搜索具备商业流量的根本属性,商家希望所经营商品通过得到足够的曝光而带来成交; 因此流量资源也就成了商家必争之地;而搜索作为平台交易保证的中流砥柱,核心目标是在保证平台 生态发展的基础上最大化成交规模;
c. 全链路优化
众所周知,相比类似百度这样的网页搜索平台,一个明显的差异是,淘宝搜索平台拥有网购消费者从查询到完成目标商品订单,这样一条完整的行为数据闭合式链路;因此对于用户的一次查询的满意度衡量绝不能止于搜索结果页上看到一个标题相关的商 品而发生了点击来判别,post-click之后的商品详情页上的行为,甚至于进入post-pay之后的评论信息都应该成为度量某商品对于某次查询(query)的满意度影响因子;因此,全链路的行为建模会是淘宝搜索体系相比于网页搜索的重要差异之处;既然谈 到这点了,再多啰嗦两句,京东也是一家做电子商务的公司,也有着不小的规模,那么如何来看淘宝搜索与京东搜索在全链路优化上的差异呢?从京东模式来看,post-pay环节,由于销售,物流仓储的自营性,可以认为是无差异竞争的;而对于淘宝来说, 售后的服务,发货速度,以及纠纷退款等环节是取决于商家与消费者之间的互动来决定的,差异性不言而喻,因此淘宝搜索有必要建立post-pay环节的排序度量因子;
 d. 垂直化
电子商务搜索属于 vertical search 范畴,相比于网页搜索,对于平台上内容的结构化梳理,以及商业平台上积累的买家,卖家和商品关系数据的挖掘都有更高的要求;因此需要建立 micro analysis 和 macro analysis 双位一体的搜索内容加工体系,宏观 分析层面指的是:除了目前已经积累并广泛运用的5级类目之外,完善的商品库建设,spu节点,sku节点,品牌库等,都是必不可少的;微观分析层面则从商品的人气指数,销量指数,作弊指数等角度给出商品自身质量的度量信息;使得搜索结果能够为消 费者提供,不仅仅停留在标题相关层面的服务,可以通过合理的宏观分析带来的数据结构化,实现高效的结果查询,通过细致的微观分析,保证优质的商品优先展示给消费者;

云栖社区:可否简要介绍下淘宝搜索算法架构体系?
徐盈辉:目前搜索算法架构体系是基本形成了三层架构:offline, nearline,online 三层体系,分工协作,保证平台既能适应日常平稳的搜索流量中实现稳定有效的个性化搜索以及推荐,也能够去满足电商平台对促销活动的技术支持,实现在短时高并发 流量下的平台收益最大化;三层的基本功能分别是:
a) Offline:离线模型训练数据收集,过滤,聚合,深层次表达学习,关系模型学习,输出nearline环节, online 环节需要的数据,特征和模型;
b) nearline:搜素技术和算法团队联手,依托于社区flink,自主研发的流式计算引擎,基于parameter server分布式训练框架的在线深度学习和强化学习的训练体系;实现了毫秒级的日志解析, 行为数据抽取,聚合,实时消费者画像描绘,实时人群-商品匹配信号的捕捉;在线机器学习框架: 基于实时用户行为数据,以最小化dynamic regret为目标,秒级模型的更新并实现基于用户累计 行为事件为触发的模型向online服务的高效输出;强化学习框架:用于排序策略决策,展示比例调整;
c) online:主体是根据offline,nearline输出的多粒度,多维度的预测模型进行高效人-货匹配 的打分,从而为用户提供具备良好用户体验的商品展示页面。

云栖社区:议题介绍中有提到,“淘宝搜索和推荐正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化”,为何选择这样的发展方向呢?
徐盈辉:运用机器学习技术来提升搜索/推荐平台的流量投放效率是目前各大互联网公司的主流技术路线,并仍然在随着计算力和数据的规模增长,持续的优化和深入;然这一路线的核心是如何针对单一问题的算法方案的准确度,更多的是通过更精细的定 位样本空间中的特征与目标的correlation来建模,在数据符合独立同分布情况下能够较好完成精准预测的目的;然而随着移动时代的到来,人机交互的便捷,碎片化使用的普遍性,从而很难对变换莫测的用户行为以及瞬息万变的外部环境进行完整的建模。 基于监督学习时代的搜索和推荐,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的商品或店铺;虽然可以运用一些辅助性策略来规避这些问题,但本质上,基于监督学习的大多数搜索/推荐模型都很难彻底解决这类问题。真正的智能化搜 索和推荐,需要作为投放引擎的agent有决策能力,这个决策不是基于单一节点的直接收益来确定,而是当做一个人机交互的过程,消费者与平台的互动看成是一个马尔可夫决策过程,运用强化学习框架,建立一个消费者与系统互动的回路系统,而系统的 决策是建立在最大化过程收益,来达到一个系统与用户的动态平衡。

云栖社区:今年双11的搜索与推荐场景中,技术做了哪些升级?人工智能技术在其中有哪些应用?又有什么样的效果显现呢?
徐盈辉:主要是深度学习和强化学习技术首次在双11得以大规模应用,人工智能技术的应用:
 a. 搜索/推荐的match,ranking模型
 b. 消费者权益相关的红包智能发放
 c. 基于强化学习的实收搜索/推荐排序策略决策模型
 d. Online Wide&deep learning在淘宝搜索的应用
效果上,成交规模带来显著的提升,bucket实验对比上相比于基准效果有将近20%以上的提升。

云栖社区:在本次在线峰会上,该内容适合哪些听众?另外,也请罗列下将要分享内容的关键点
徐盈辉:这次分享适合的对象包括:搜索/推荐 算法研发工程师,大数据分析工程师,机器学习算法工程师;
几个关键点:
电商搜索推荐的技术演变、 阿里搜索推荐的新技术体系、 未来的方向

云栖社区:对于搜索技术开发者的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)
徐盈辉:追根求源,学会failure analysis,实践加理论学习并举;几本技术书籍推荐给朋友们:
 1. 中文: 
周志华:机器学习,李航:统计机器学习
2. 英文: 
Kevin P. Murphy,  Machine Learning: A Probabilistic Perspective
Christopher bishop, Pattern recognition and machine learning
Yoshua Bengio, Deep Learning
Richard S. Sutton, Reinforcement Learning: An introduction 

“2016双11技术创新“在线论坛专题:https://yq.aliyun.com/promotion/139

8767e427e77ab7c119d0a6383f1416e2ba79f8cb

4da97b2a6e9faa41666e4095a723971bc69b691e

论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖。

相关文章
|
19小时前
|
机器学习/深度学习 自然语言处理
深度学习中的正则化技术:防止过拟合的利器
在深度学习领域,模型的复杂度往往与其性能成正比,但过高的复杂度也容易导致过拟合现象。本文将深入探讨正则化技术在深度学习中的应用,分析其如何通过引入额外信息或限制来优化模型,从而在保持模型复杂度的同时,有效避免过拟合问题。我们将通过具体实例和数据,展示正则化技术的实际效果,并讨论其在不同场景下的应用策略。
|
1天前
|
机器学习/深度学习 人工智能 监控
探索深度学习在图像识别中的应用
本文旨在探讨深度学习技术如何革新图像识别领域,通过分析深度学习模型的工作原理及其在图像处理中的具体应用案例,揭示这一技术如何提高识别精确度并解决传统方法难以克服的问题。文章将详细讨论卷积神经网络(CNN)的结构优势、训练技巧以及在实际场景中的应用效果,同时指出当前面临的挑战和未来的发展方向。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
随着人工智能技术的飞速发展,深度学习已成为自然语言处理(NLP)领域的核心技术之一。本文将探讨深度学习在NLP中的应用场景,分析其带来的变革及面临的主要挑战。我们将通过具体的案例和数据,展示深度学习如何推动语言理解、机器翻译、情感分析等领域的进步,并讨论模型泛化、数据偏见和资源消耗等问题。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
深度学习技术,作为人工智能领域的重要分支,近年来在自然语言处理(NLP)领域取得了显著的进展。通过模拟人脑处理语言的方式,深度学习模型能够理解和生成人类语言,从而在机器翻译、情感分析、文本分类等任务中展现出卓越的性能。然而,尽管取得了巨大成就,深度学习在NLP中的应用仍面临着数据偏差、模型可解释性不足以及跨语言泛化能力有限等挑战。本文将深入探讨深度学习在自然语言处理中的应用现状及其面临的主要挑战,并提出未来研究的可能方向。
|
1天前
|
机器学习/深度学习 存储 人工智能
深度学习在医疗影像诊断中的应用与挑战
随着人工智能的飞速发展,深度学习技术已广泛应用于医疗影像诊断领域,展现出强大的图像处理和模式识别能力。本文将探讨深度学习在医疗影像中的具体应用实例,分析其面临的技术挑战和未来发展方向。
4 0
|
1天前
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的应用与挑战
随着科技的飞速发展,深度学习已成为人工智能领域的核心技术之一。特别是在图像识别领域,深度学习技术取得了显著的成果。然而,尽管深度学习在图像识别方面展现出了强大的能力,但仍然面临着一些挑战和问题。本文将探讨深度学习在图像识别中的应用以及面临的挑战,并提出一些可能的解决方案。
4 0
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
随着人工智能领域的迅速发展,深度学习已成为推动自然语言处理(NLP)进步的关键技术。本文旨在探讨深度学习技术在NLP中的实际应用案例,分析其在文本挖掘、语义理解和机器翻译等方面的贡献,并识别当前面临的主要技术挑战和未来发展趋势。通过对比传统方法与深度学习方法的性能差异,本文强调了深度学习模型在处理复杂语言现象时的优势,同时也指出了数据依赖性、解释性不足等问题。文章最后提出,为了克服这些挑战,需要跨学科的合作、算法创新和更大规模的数据集构建。
|
2天前
|
机器学习/深度学习 自然语言处理 开发者
深度学习在自然语言处理中的应用与挑战
随着人工智能技术的快速发展,深度学习已成为自然语言处理(NLP)领域的核心动力。本文将探讨深度学习模型如何革新了语言理解、机器翻译和情感分析等NLP任务,并讨论在实现更高水平的语言智能方面所面临的数据偏差、模型泛化能力和伦理问题等挑战。通过案例分析和最新研究趋势的回顾,本文旨在为读者提供深度学习在NLP领域的应用全景及其未来发展的可能性。
11 1
|
2天前
|
机器学习/深度学习 自动驾驶 算法
深度学习在图像识别中的应用与挑战
随着人工智能技术的飞速发展,深度学习已成为推动图像识别技术革新的重要力量。本文将探讨深度学习如何通过其复杂的神经网络模型在图像识别领域实现突破性进展,包括卷积神经网络(CNN)的原理、应用实例,以及当前面临的主要挑战和未来发展趋势。文章旨在为读者提供一个全面的视角,理解深度学习在图像识别中的应用价值及其局限性。
13 0
|
3天前
|
机器学习/深度学习 边缘计算 监控
探索深度学习在图像识别中的应用
【7月更文挑战第24天】随着人工智能技术的飞速发展,深度学习已成为推动图像识别技术革新的核心驱动力。通过深度神经网络的复杂层级结构,计算机能够模拟人脑处理视觉信息的方式,实现对图像内容的高效识别。本文将深入探讨深度学习模型在图像识别领域的应用原理、关键技术以及面临的挑战和未来发展趋势,旨在为相关领域的研究者和实践者提供有价值的参考。

热门文章

最新文章