全球最强大脑在哪里?阿里小蜜算法团队在寻找

简介:

阿里小蜜是什么?

阿里小蜜是阿里巴巴集团智能服务事业部旗下的面向电商领域的服务机器人。阿里小蜜所在的智能服务事业部,致力于以体验为核心,通过人工智能算法,以数据和技术为驱动,提升用户的服务体验以及解决问题的效率。目前围绕着智能对话、智能辅助、智能决策、智能管理4大核心体系通过人工智能技术全面赋能客户,引领服务的智能化升级。在2017年,阿里小蜜家族产品通过自然语言处理、知识图谱、深度学习等技术引领阿里小蜜从阿里走向行业,从中国走向国际,围绕这商家生态圈及阿里云生态圈,赋能数百万商家和全球中小企业,覆盖了英语、俄语、葡萄牙语、西班牙语、印尼语、泰语等多个国家和地区。

ba4ade431a65aeb3345532b1994d56ea0e300d58

阿里小蜜吉祥物

在过去的一年中,阿里小蜜团队已经在文本匹配及迁移学习两个方向上做了很多工作,不仅在工业界落地,真实服务消费者,而且在一些重要的国际会议上,如ACL、WSDM、CIKM等,发表了多篇论文。例如在2018的WSDM上,我们提出了一个文本匹配模型的迁移学习框架,尝试解决了同种语言下的文本匹配模型的冷启动问题。

为什么会选择“跨语言短文本匹配算法”相关赛题?

随着人工智能时代的到来,大数据和算法成为了互联网企业发展的两个重要驱动力。作为人工智能重要的落地场景之一,以聊天机器人出现的智能服务系统,为企业减少大量劳动力的同时,也对提升用户体验具有重要意义。因此在过去几年中,聊天机器人成为了商业公司重金投入的热点。从微软小冰、亚马逊的Echo等到各种垂直行业的客服机器人,聊天机器人蓬勃发展,形态各异,又不乏共性。阿里小蜜正是阿里巴巴集团围绕电商领域构建的超级个人助理,不仅可以解决用户的各种信息咨询类问题,也可以帮助用户挑选商品,为用户订购机票等任务。

根据应答产生的方式,聊天机器人可以分为检索式、生成式或者混合式。在检索式的聊天机器人中,文本匹配模型是至关重要的一个模块,决定了聊天机器人解决用户问题的能力。文本匹配模型接受一个用户的问题,在FAQ数据集上寻找一个匹配的问答对,并将人工编写的答案回传给用户。为了构建一个文本匹配模型,不仅需要人工收集一个称之为FAQ(Frequently Asked Questions)的数据集,同时也需要人工标注一批用户问题与FAQ中问答对的匹配语料,用于训练模型。然而这种情况在一些小语种中不太现实,一方面缺乏相应的标注语料,另一方面了解小语种的NLP研发人员很稀少,这两个方面都限制了聊天机器人的研发。

49666ce4fc5567959f039119410ff29b35d6b702

阿里巴巴集团在去年开始明显加快了国际化的进程,不仅通过速卖通(AliExpress)覆盖了俄罗斯、西班牙等120多个国家和地区,而且还在不同地区收购或投资了当地的电商企业,比如收购了东南亚地区最大的电商Lazada,在印度地区投资了Paytm等。

未来,阿里巴巴集团将为20亿用户提供服务。在这样一个背景下,作为阿里集团内最大的服务团队,在服务好国内消费者的前提下,也需要思考如何服务好国外的消费者,其中就包括使用技术手段解决消费者的服务咨询类问题。然而,现有的技术手段需要大量的标注数据,以帮助深度学习或机器学习系统训练出有效的模型。但一些小语种(如印尼语、泰语、菲律宾语等)不仅缺乏大规模的标注数据,而且相应的算法研发人员也相当匮乏。如何为使用这些语种的国家和地区的消费者提供高质量的服务,将是对算法人员很大的挑战。因此我们设计了这种一个题目,希望将数据资源丰富的语言理解能力迁移到资源匮乏的语言上。

期待你的参与

通过本次比赛,我们不仅希望为学术界抛砖引玉,贡献一个在真实场景中需要面对解决的问题,而且希望有更多的优秀选手参与比赛,共同帮助我们提升聊天机器人的能力。未来,对于消费者,他们可以自由地选择语言,不管是使用官方语言(如英语)还是使用日常用语(如印尼语等小语种),都将得到高质量的服务。

在这项比赛中,为了使参赛人员关注于语言本身的特性及迁移能力上,我们做了一些限制,比如不要过分关注于机器翻译技术等。这些限制,本质上是为了回归问题本身,而不是利用外部的能力。在此之外,参赛人员可以发挥想象力和创造力,提出各种模型和解决方案。

本次大赛将向全社会开放,我们期待来自高等院校、科研单位、互联网企业等算法工程师,在这个舞台大展身手。


原文发布时间为:2018-06-12

本文来自云栖社区合作伙伴“阿里技术 ”,了解相关信息可以关注“阿里技术”。

相关文章
|
算法 JavaScript Java
【状态压缩】【动态规划】【C++算法】1125.最小的必要团队
【状态压缩】【动态规划】【C++算法】1125.最小的必要团队
|
机器学习/深度学习 人工智能 算法
“探秘神经算法:如何用人工智能模拟大脑处理信息“
“探秘神经算法:如何用人工智能模拟大脑处理信息“
267 0
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
机器学习/深度学习 存储 人工智能
一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法
【4月更文挑战第19天】北京大学林宙辰团队在深度学习领域取得突破,提出基于一阶优化算法的神经网络设计方法,构建具有万有逼近性质的模型,提升训练速度和泛化能力。该方法利用一阶导数信息,高效处理大规模问题。虽然面临非光滑优化和收敛速度挑战,但团队通过正则化和自适应学习率等策略进行改进,相关研究在多个标准数据集上表现出色。
284 1
|
存储 运维 算法
社交软件红包技术解密(十三):微信团队首次揭秘微信红包算法,为何你抢到的是0.01元
本文中,我们将介绍几种主流的IM红包分配算法,相信聪明的你一定能从中窥见微信红包技术实现的一些奥秘。
352 0
|
存储 算法
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
|
算法 搜索推荐 Java
太实用了!阿里内部强推的超全Java算法学习指南,已被彻底征服
算法和数据结构一直以来都是程序员的基本内功。 数据结构可以看作是算法实现的容器,通过一系列特殊结构的数据集合,能够将算法更为高效而可靠地执行起来。
2023年阿里高频Java面试题:分布式+中间件+高并发+算法+数据库
又到了一年一度的金九银十,互联网行业竞争是一年比一年严峻,作为工程师的我们唯有不停地学习,不断的提升自己才能保证自己的核心竞争力从而拿到更好的薪水,进入心仪的企业(阿里、字节、美团、腾讯.....)

热门文章

最新文章