专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 司罗在学术研究上的成功以及对人工智能商业化的理解让整个阿里巴巴集团的自然语言处理、搜索和推荐能力提升了一个台阶。

编者按:1011-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访,想了解嘉宾以及最新议题信息请关注云栖大会公众号。本期我们采访的是阿里iDST Natural Artificial Intelligence团队(以下简称iDST NLP团队)负责人司罗,他将在10月的云栖大会上分享NLP领域的前言趋势以及阿里巴巴在这一领域的成果。

1226a4b6ce223a3ddabfa505f6009120ec6286f8

2017杭州云栖大会详情请戳这里

司罗是最早一批从学术界转向工业界的人工智能科学家之一。

2006年,卡内基梅隆大学博士毕业的司罗进入另一所人工智能顶级高校——普渡大学计算机系任教,在这期间,他专注于信息检索、机器学习、自然语言处理等领域的研究,他是一位高产的学术专家,短短几年就发表了100余篇论文;2012年,成为普度大学计算机系终身教授后,一举奠定了司罗在学术圈的地位,他先后担任了ACM信息系统(TOIS),ACM 交互信息系统(TIIS)和信息处理与管理(IPM)编辑委员会的副主编,多次在国际学术会议担任重要职务(如2016 ACM CIKM 技术主席等)

a3dd398cbca99079bca251cb05ee555becb4afc2

但出人意料的是,2014年司罗结束了8年的学术生涯,成为阿里人工智能科学家阵营的一员。

对于这样的转变,他表示并不陌生。

“我在普渡大学任教期间就对技术应用场景和产品化、商业化的工作非常感兴趣,当时也有很多和工业界的合作。”司罗如此表示。

据云栖社区了解,司罗主导的 20 余个项目得到了美国政府以及雅虎、谷歌等工业界的资助,例如美国国家科学基金会成就奖、雅虎,谷歌研究奖等。

司罗在学术研究上的成功以及对人工智能商业化的理解让整个阿里巴巴集团的自然语言处理、搜索和推荐能力提升了一个台阶。去年11月,他带领的团队在信息检索、知识管理以及数据库领域的全球顶尖学术会议CIKM Cup竞赛中力压对手获得冠军,相比主办方提供的搜索排序基准指标,该团队提升了21.28%

目前,iDST NLP团队主要分布在美国西雅图、硅谷以及杭州三地,他们用算法服务了阿里集团近十个DAU上千万的场景——淘宝评价、内容搜索、资讯推荐等;这是一支战斗力极强的团队,他们全部来自伯克利、普林斯顿、卡内基梅隆、清华、北大以及中科大等知名院校,不仅能做前沿学术研究,也善于把技术落地到实际应用场景中。

作为阿里iDST大团队的一部分iDST NLP主要为阿里大生态系统提供自然语言处理相关的基础技术,以及垂直应用的技术支持。但在司罗眼中还有更长远的目标——通过技术输出赋能消费者、客户以及合作伙伴。

以下是采访实录:

云栖社区:介绍一下iDST Natural Artificial Intelligence团队。

司罗:众所周知,整个iDST团队在金榕老师带领下涵盖了人工智能几个重要的方向,包括语音、图像和NLP等。iDST NLP团队成员主要分布在“两岸三地”(美国的西雅图、硅谷和中国杭州),从地域来看,美国地区由经验丰富的专家组成,而国内更多的是年轻、有朝气、能够贴近业务的专家和工程师,他们都来自国内外一流的大学,例如伯克利、普林斯顿、卡内基梅隆大学、清华、北大以及中科大等。

除此之外,我们现在还在筹建阿里在新加坡的研发中心,所以未来会形成三岸四地的格局。

iDST NLP团队主要为阿里大生态系统提供国际化多语言自然语言处理相关的基础技术,以及重要的自然语言垂直应用的技术支持,未来也希望把阿里的自然语言技术发扬光大,通过技术输出赋能消费者、客户以及合作伙伴。

团队在全球顶级的大赛中也取得了很多突破,例如在CIKMCUP竞赛中我们获得了冠军,相比主办方提供的搜索排序基准指标,我们团队提升了21.28%,这是一个非常了不起的成绩。

云栖社区:iDST NLP团队的定位是什么,重点在做哪些项目?

司罗:刚才谈到iDST NLP团队主要为整个阿里大生态提供自然语言处理技术,同时也会对外赋能、处理相关的垂直应用。

从基础技术角度来看,去年年底我们开始搭建AliNLP技术平台,这个平台涵盖了很多自然语言处理的技术,例如词法分析、句法分析还有文档分析等。

AliNLP平台从去年年底开始研发,到今年年初开始上线,经过了内部团队不断的优化,目前为整个阿里大生态提供了一个基础的NLP算法。AliNLP平台它所产生的价值和影响力也在不断提升,到现在已经超过了90个业务方,每天的调用量超过了四百亿次。这里先做个预告,AliNLP平台正在上云的过程中,初期会通过阿里云的输出几个重要的功能,包括分词、实体识别、情感分析和文本反垃圾等,敬请期待。

除此之外,我们还在搭建另一个基础技术平台——阿里IE平台(Information Extraction信息抽取平台)。因为很多场景下的文本是非结构化的,这就需要把它变成一个结构化的知识表示,例如拍卖场景中的委托书,我们需要从委托书中抽出什么是被委托的商品,拍卖的委托方是谁,希望中标的价格是多少……只有把这些信息有效的提取出来,才能建立搜索、推荐等功能。搭建阿里IE平台也是希望把基础算法能力在整个阿里集团的上层应用发挥作用。

当然,在阿里巴巴集团内部,我们也是很多自然语言相关业务的算法提供者,例如阿里电商环境的资讯搜索(淘宝头条的搜索、手淘淘攻略的搜索);还有整个淘系内部的评价,不仅要去掉涉黄涉暴力的内容,还需要知道消费者表达的是正面的评价还是负面的评价。

阿里集团内部有很多场景都涉及到自然语言处理相关的技术,都需要我们来提供算法的支持。

目前,团队还是集团内部很多重要业务的算法合作方,例如我们和和阿里小蜜合作研发了机器阅读理解的技术。

所以总结起来,我们在做三件事:基础技术平台的产品;重要业务算法的提供,淘宝内部的评价、资讯的搜索与推荐;重要技术的算法贡献。

云栖社区:AliNLP平台上线前后遇到了哪些挑战?

司罗:毋庸置疑,自然语言处理在很多应用场景当中都很重要,但是过去没有一个系统性的规划。我们是从去年12月份开始规划做这样一个平台,希望把自然语言处理重要的功能承接下来。

虽然AliNLP的愿景很美好,但是最开始遇到了很多挑战,因为团队中的很多工程师是做业务的,但是AliNLP更像是技术导向的平台,所以我们必须花很多时间让更太多的人参与进来。在团队组建好后,就开始给项目做规划,因为这是一个从无到有的产品,大家必须把做出更多的尝试,从哪个角度出发,用什么样的技术能达到比较好的效果等等。

从最初项目的规划到平台的上线确实花了很多的时间和精力,但是我觉得这个时间和精力是很值得的。

云栖社区:相比计算机视觉,NLP的发展相对较慢,从目前来看NLP发展到了一个什么样的阶段?

司罗:我认为NLP是既成熟又有活力,既实用又有技术远景的领域。

事实上,最早从六七十年代开始,自然语言处理都是采用“规则”方法, 80年代后随着大的数据集的出现,统计自然语言处理方法便逐渐成为了主流;最近几年,随着深度学习的崛起,NLP也取得了快速的发展,所以我认为它是一个非常成熟的领域;为什么说有活力呢?最近两三年创业最火的方向之一就是Chatbot,这是和自然语言处理紧密相连的领域。

既实用是指现在自然语言处理已经在很多领域都有很广阔的应用了,以阿里集团为例,几乎阿里的每个重要的产品都跟自然语言处理相关,例如商品的搜索和推荐,它是一个非常实用的一个学科;当然,它也是非常有技术挑战的学科,真正意义上的语义理解(能够分析出说话的背景,它要达到什么样的目的等等)不是靠数据上的关系分析就能实现的,例如siri、Cortana都是基于数据驱动的方式来实现语义理解,但它无法像人一样去理解。

所以,自然语言处理是实现完整人工智能或者叫强人工智能的一个必要的技术,而现在离这一远景还有很长的距离,这需要工业界和学术界共同的努力。

云栖社区:iDST NLP团队现在做出了哪些的突破?

司罗:iDST NLP团队现在还是基于我们本身的业务以及场景为出发点,一个有代表性的是情感分析上的领先,例如,电商场景的情感分析和其他友商提供的产品相比大约有10%的准确率的优势,当然一方面原因是阿里本身就拥有大量的电商数据,但更多的是因为我们做了很多通用领域的舆情,例如把技术用在一些学术界的标准数据集上,在电影评价上的标准数据集,我们也比学术界的最好成绩能领先2%以上。

另外,我们还是第一家真正大规模的把机器阅读理解应用到实际电商场景中的企业。所以在应用的实用性上,例如高效的模型的设计、高效的模型的实现都做了开创性的工作。最后,是自然语言生成。自然语言生成有两种方式,一种就叫抽取式,一种叫产生式,我们在这两方面都做了很多尝试:抽取式典型的例子是电商标题的改写,能够比较显著的提升点击率和转化率;生成式方式,我们现在是和阿里妈妈合作,它可以帮助联盟的用户更好的把他们所挑选出的商品在投放到社交渠道。

云栖社区:您觉得创业企业如何在NLP领域找到突破口?

司罗:创业企业特别是小企业要取得成功,我觉得有两种方式相对来说比较容易取得成功:一种只专注于某项具体的技术,就是把某一项或者一两项技术做深,做到真正的领先,创业企业不适合做一个完整的技术平台,较难有大量的投入,甚至大量的数据;第二种方式是专注于一个领域,自然语言处理得应用很广,例如法律文书的自然语言理解和微信闲聊的差距是巨大的,还有从专利中挖掘信息做竞品分析也有市场空间,初创企业可以考虑专注这些细分领域,面面俱到反而没有自己的特色。

云栖社区:未来,NLP会朝什么方向发展?

司罗:虽然深度学习是非常有价值的技术方向,它推动了自然语言处理的发展,但是我是觉得靠分步学习,或者统计自然语言理解是远远不够的,我们一定要把人类的知识表示,和对知识的理解更好的融入到技术当中,这样才能更有效,真正的达到自然语言理解本身的目标,否则就是光靠数据驱动,刚才也有提到,所以我认为把这一趋势的研究和数据结合是自然语言未来发展的重要课题。

云栖社区:您希望在下个月的杭州云栖大会上关注哪些议题?届时,您会分享什么话题?

司罗:首先,是机器学习、自然语言处理相关的技术问题;其次,业务上的议题我也很感兴趣,我非常希望通过这届云栖大会了解到各行各业对自然语言处理技术的需求,这样才能够更充分的理解客户的需求,做到有的放矢,才能让然语言处理的技术发挥最大的价值。

在本次大会上,我们组织了NLP专场,并且邀请到了很多外部学者,例如加拿大皇家学院的李明院士,还邀请了国内的,中国中文信息学会秘书长孙乐,苏州大学计算机学院副院长张民老师等,他们都是学界的领军人物;除此之外,因为这是云栖大会第一次办自然语言处理的专场,我们也希望借这个平台把iDST NLP团队的自然语言处理的技术能力对外展示,例如,我们会全面介绍AliNLP的平台技术输出,以及情感分析、机器阅读理解等。(购票请戳这里!)

欲了解更多历届大会相关内容以及最新嘉宾采访,请关注社区公众号——“云栖大会”

专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流

专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下

专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远

专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索

云栖大会变迁史(2009-2017)
图说历届云栖大会精彩内容(长图鉴赏)

【印象】2017云栖大会城市峰会:上海、南京、成都等

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
自然语言处理算法与文档管理软件:提升搜索与分类效率的未来
如果想要让你的文档管理软件更智能、更易用,那就让我们聊一聊如何巧妙地应用自然语言处理(NLP)算法吧!这绝对是提升用户体验和工作效率的“绝佳利器”!下面是一些能帮你通过自然语言处理算法提升文档管理软件的搜索和分类效率的方法——
137 1
|
自然语言处理 达摩院 搜索推荐
阿里推出文本搜索排序新技术,登顶国际权威NLP榜单MS MARCO
3月28日,阿里巴巴团队以0.450的得分,刷新了国际权威自然语言处理(NLP)榜单MS MARCO短文本检索排序任务历史纪录。据悉,搜索团队最新研发的文本检索及排序技术已通过阿里云智能开放搜索OpenSearch产品对外输出。
1230 0
阿里推出文本搜索排序新技术,登顶国际权威NLP榜单MS MARCO
|
数据采集 自然语言处理 算法
NLP之相似文本搜索
NLP之相似文本搜索
439 0
|
机器学习/深度学习 存储 人工智能
「智能企业搜索」:为什么知识图和NLP可以提供所有正确答案
「智能企业搜索」:为什么知识图和NLP可以提供所有正确答案
|
自然语言处理
《搜索NLP行业模型和轻量化客户定制》电子版地址
搜索NLP行业模型和轻量化客户定制
105 0
《搜索NLP行业模型和轻量化客户定制》电子版地址
|
自然语言处理 Java API
阿里云自然语言处理--词向量(高级版-搜索领域)Quick Start
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。词向量是一种简单有效的将最小语义单元 —— 词转化为数值表示的方法。通过词向量得到的数值表示的形式是高维稠密向量。这种数值表示的特点是语义相近的词(如“红色”和“蓝色”)在向量空间中的位置接近。这种数值表示可以支撑语义相似度计算等具体应用。本文将使用Java CommonSDK演示词向量(高级版-搜索领域)服务的快速调用以供参考。
443 0
阿里云自然语言处理--词向量(高级版-搜索领域)Quick Start
|
机器学习/深度学习 数据采集 缓存
【NLP】(task6)Transformers解决文本分类任务 + 超参搜索
篇章4代码库,也支持使用google colab notebook打开本教程,下载相关数据集和模型。如果在google的colab中打开这个notebook,需要安装Transformers和🤗Datasets库。
647 0
【NLP】(task6)Transformers解决文本分类任务 + 超参搜索
|
机器学习/深度学习 自然语言处理 运维
搜索NLP行业模型和轻量化客户定制
开放搜索NLP行业模型和轻量化客户定制方案,解决减少客户标注成本、完全无标注或少量简单标注的等问题,让搜索领域扩展更易用。
1658 0
搜索NLP行业模型和轻量化客户定制
|
机器学习/深度学习 人工智能 自然语言处理
AI公开课:19.04.03周明—MSRA副院长《NLP的进步如何改变搜索的体验》课堂笔记以及个人感悟
AI公开课:19.04.03周明—MSRA副院长《NLP的进步如何改变搜索的体验》课堂笔记以及个人感悟
|
机器学习/深度学习 人工智能 自然语言处理
【阿里巴巴搜索推荐事业部】招聘知识图谱、自然语言处理算法专家
我们旨在打造全球最大的中文电商知识图谱,支持包括淘宝、天猫乃至海外电商在内整个阿里集团的推荐、搜索、广告业务,每天服务上亿用户。从电商场景下的用户需求出发,打造一个连接商品,用户,知识,乃至各类开放领域知识、常识的大规模语义网络,并且在此基础上研究新一代基于知识图谱的智能搜索、推荐、问答技术。 我们已正式发布阿里电商知识图谱AliCoCo(Alibaba E-Commerce Cognitive Concept Net)于SIGMOD,也是阿里知识图谱首次在国际顶会上正式披露大规模领域知识图谱。
2489 0
【阿里巴巴搜索推荐事业部】招聘知识图谱、自然语言处理算法专家