拿下两个世界第一,阿里人机对话模型成人工智能国际通用标准

简介: 近日,第七届对话系统技术挑战赛(DSTC7)中,阿里AI获得双料冠军,成最大赢家。

近日,第七届对话系统技术挑战赛(DSTC7)中,阿里AI获得双料冠军,成最大赢家。

DSTC7由来自微软研究院、卡耐基梅隆大学的科学家于2013年发起,是人工智能领域的权威学术比赛。它要求参赛的AI模型依据给定的多轮对话历史从上万个句子中选出正确的回复。阿里AI在参与的2项比赛中拿下两个世界第一,击败了包括麻省理工学院、约翰霍普金斯大学、IBM研究院在内的近20支国际知名大学和研究机构的参赛队伍。

_

基于此次比赛所提供的公开对话回复数据集DSTC7 Ubuntu,阿里AI将人机对话准确率的世界纪录提升至94.1%。

一直以来,人机对话系统及其背后的认知智能,是人机交互中最复杂也最重要的技术,曾被比尔盖茨形容为“人工智能皇冠上的明珠”。人类的语言表达复杂且多变。在多轮人机交互对话中,机器如果不能快速准确理解人类的表达,就会给出“牛头不对马嘴”答复的情况。

此次阿里的参赛AI模型叫做ESIM,是一个解决多轮对话回复问题的原创模型,通过给对话机器人装上实时搜索并理解人类真实意图的“雷达”系统,实现对对话历史的实时检索,自动去除多余信息的干扰,给出人类期待的回复。

例如当人们线上购物时,提出要一件M号的黑色裙子,智能机器人通过对库存情况的实时检索,发现并答复用户没有黑色M号的裙子。用户接着问,“那有白色的吗?”此时传统模型训练出的AI客服很难判断用户是要问“这件裙子是否有白色款”还是“有没有白色的M号裙子”,无法给出准确回复。

阿里AI通过对用户对话上下文的检索,明确用户的核心在于尺寸而非颜色,很快给出有没有白色M号裙子的准确回复。

这项技术未来将会被应用到人机交互的多个场景:智能语音点餐机能够更准确地理解人们的真实意图,提高点单成功率;导航软件能更容易听懂人们的语音请求,少走冤枉路;家里的智能音箱能够更快做出反应,节省等待时间。

ESIM技术最初由达摩院语音实验室内的一位90后科学家——陈谦研发,不到两年,这一模型已经成为业界的热门模型和通用标准。此次DSTC7的国内外参赛队伍中就有6支队伍同样使用了基于ESIM的模型。

相关文章
|
3天前
|
存储 人工智能 算法
【论文阅读-问答】人工智能生成内容增强的甲状腺结节计算机辅助诊断模型:CHATGPT风格的助手
【论文阅读-问答】人工智能生成内容增强的甲状腺结节计算机辅助诊断模型:CHATGPT风格的助手
14 6
|
15天前
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之是否可以在模型部署发布后以http接口形式提供给业务开发人员使用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
15天前
|
机器学习/深度学习 人工智能 NoSQL
人工智能平台PAI产品使用合集之机器学习PAI EasyRec训练时,怎么去除没有意义的辅助任务的模型,用于部署
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
15天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何配置DSSM模型负采样item表的schema
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
15天前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI 操作报错合集之机器学习PAI,用Triton Inference Server 22.05 部署模型,遇到SaveV3这个op的问题,如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
1月前
|
人工智能 自然语言处理 搜索推荐
AI日报:Anthropic推出商业友好型Claude 3人工智能模型
AI日报:Anthropic推出商业友好型Claude 3人工智能模型
37 0
|
1月前
|
人工智能 自然语言处理 搜索推荐
人工智能,应该如何测试?(八)企业级智能客服测试大模型 RAG
大模型如GPT虽表现出众,但在特定领域和实时信息方面表现不足,易产生“幻觉”即编造答案。其能力受限于训练数据,无法提供超出数据范围的专业知识。为解决此问题,采用意图识别模型预判问题归属,结合检索增强生成(RAG)技术,通过检索相关信息注入大模型以提升回答质量。测试人员利用RAG评估模型效果,有时借助GPT进行自动化评分,尤其是在非专业领域,但GPT评分的准确性仍有限,人工评估更为可靠。
26 0
|
1月前
|
人工智能 搜索推荐 算法
人工智能,应该如何测试?(七)大模型客服系统测试
这篇文稿讨论了企业级对话机器人的知识引擎构建,强调了仅靠大模型如 GPT 是不够的,需要专业领域的知识库。知识引擎的构建涉及文档上传、解析、拆分和特征向量等步骤。文档解析是难点,因文档格式多样,需将内容自动提取。文档拆分按语义切片,以便针对性地回答用户问题。词向量用于表示词的关联性,帮助模型理解词义关系。知识引擎构建完成后,通过语义检索模型或问答模型检索答案。测试环节涵盖文档解析的准确性、问答模型的正确率及意图识别模型的性能。整个过程包含大量模型组合和手动工作,远非简单的自动化任务。
258 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
人工智能,应该如何测试?(四)模型全生命周期流程与测试图
本文补充了完整的业务和测试流程,包括生命周期流程图,强调测试人员在模型测试中的角色。主要测试活动有:1) 离线模型测试,使用训练集、验证集和测试集评估模型;2) 线上线下一致性测试,确保特征工程的一致性;3) A/B Test,逐步替换新旧模型以观察效果;4) 线上模型监控,实时跟踪用户行为变化;5) 数据质量测试,验证新数据质量以防影响模型效果。
21 0
|
1月前
|
机器学习/深度学习 人工智能 文字识别