【技术揭秘】DSTC7国际大赛双料冠军方案解读

简介: 本文将回顾阿里语音AI在第七届对话系统技术挑战赛 (DSTC7)所获的成绩和解读背后所用到的原创核心技术-ESIM。
来源 阿里语音AI 公众号

关键词:
国际对话系统技术挑战赛,DSTC7,ESIM,多轮回复选择

导语

一年一度的国际对话系统技术挑战赛(Dialogue System Technology Challenges, DSTC)作为国际顶尖人工智能学术竞赛受到越来越多学术界、工业界学者们的关注。第八届对话系统技术挑战赛(DSTC8)已在2020年2月8日纽约的AAAI2020顶级国际学术会议上举行。借此时机,本文将回顾阿里语音AI在第七届对话系统技术挑战赛 (DSTC7)所获的成绩和解读背后所用到的原创核心技术-ESIM。

背景介绍

DSTC由来自微软研究院、卡耐基梅隆大学的科学家于2013年发起,迄今已举办七届。DSTC7的比赛共有三个赛道,其中赛道一(Track 1)是一个多轮回复选择任务,它要求参赛的AI模型依据给定的多轮对话历史从成百到上万个句子中选出正确的回复。阿里语音AI参加了赛道一的竞赛,并在全部的2项比赛中击败了包括麻省理工学院、约翰霍普金斯大学、IBM研究院在内的近20支国际知名大学或研究机构的参赛队伍,获得了双料冠军[1]。

image.png

基于ESIM的多轮回复选择

此次阿里的参赛AI模型叫做Enhanced Sequential Inference Model (ESIM)[2],这是阿里自主研发的一种用于解决多轮对话回复问题的原创模型。开源地址:https://github.com/alibaba/esim-response-selection

ESIM模型结构如下图所示,主要包括三部分。第一部分称为输入编码,主要是对输入的premise和hypothesis分别进行词向量提取和用BiLSTM1进行考虑上下文的编码。第二部分称为局部推理建模,先计算premise和hypothesis之间的dot-product attention weight matrix,然后用彼此进行相互重构,并和原本的BiLSTM1编码后的embedding进行拼接。第三部分称为推理组合,用BiLSTM2把前面得到的拼接向量进行特征提取,最后把pooling后的表征拼接起来送入MLP分类器。

image.png

这次参赛所采用的ESIM模型是基于序列结构的模型,与以往多轮回复选择领域state-of-the-art(SOTA)模型所采用的层级结构不同,该模型更简洁且更高效。层级结构是指分别对句子级(utterance-level)和词级(token-level)进行人工神经网络建模,来显式地建模不同轮对话内容的关系。这种方式通常需要对不同轮的句子进行截断,来确保不同轮有相同的文本长度且短于预先设定的最大长度。然而,实际应用中,不同轮对话的长度往往变化很大,从而需要很多的补零填充(zero padding),导致计算复杂度和内存消耗的显著增加。如果只使用较小的最大长度,则面临着丢失多轮上下文中重要信息的风险。此次采用的ESIM模型是基于序列结构的模型,将多轮的上下文信息拼接成一个长序列,有效地解决了上述层级结构所面临的问题。ESIM有两个主要优势:1)ESIM不需要使每轮的对话有相同长度,因此有更少的补零填充,从而比层级结构的模型有更高的计算效率。2)ESIM模型隐式地的建模不同轮对话的关系,从而不需要额外复杂的网络来建模。

除了在DSTC7多轮回复选择比赛中获得双料冠军之外,参赛的ESIM模型在公开的多轮回复选择标准数据集Ubuntu(英文)和E-commerce(中文)上均显著地提升了之前的最优性能,取得了目前最好的结果 [3]。例如,相比之前最好的模型(来自百度团队的DAM模型 [4]),ESIM获得在Ubuntu数据集上相对12.4%的错误率 (1-R@1) 的降低。

image.png

ESIM的更多应用

ESIM模型是自然语言推理任务中具有代表性的一个模型,该模型可以被用来处理几乎所有的句子对分类问题。它曾在多种国际学术竞赛中崭露头角。例如,Kaggle Quora Question Pairs竞赛的冠军模型采用了ESIM,蚂蚁举办的ATEC语义匹配比赛TOP20的选手75%都采用了ESIM或者在此基础上改动的模型, DSTC7 多轮回复选择赛道的近20 支参赛队伍中有5支参赛队伍采用了ESIM。另外,该模型也在阿里巴巴集团内部的商品检索、智能问答、话题生成等领域有着广泛的应用。

参考文献

[1] ChulakaGunasekara, Jonathan K. Kummerfeld, Lazaros Polymenakos, and Walter S. Lasecki.“DSTC7 Task 1: Noetic End-to-End Response Selection - Track 1 Overview”. DSTC7 workshop(2019). http://workshop.colips.org/dstc7/papers/dstc7_task1_final_report.pdf

[2] Qian Chen,Xiao-Dan Zhu, Zhen-Hua Ling, Si Wei, Hui Jiang and Diana Inkpen. “Enhanced LSTMfor Natural Language Inference.” ACL (2016).

[3] Qian Chen andWen Wang. “Sequential Matching Model for End-to-end Multi-turn ResponseSelection.” ICASSP 2019 - 2019 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP) (2019): 7350-7354.

[4] XiangyangZhou, Lu Li, Daxiang Dong, Yi Liu, Ying Chen, Wayne Xin Zhao, Dianhai Yu andHua Wu. “Multi-Turn Response Selection for Chatbots with Deep AttentionMatching Network.” ACL (2018).

相关文章
|
NoSQL 关系型数据库 MySQL
分布式锁(redis/mysql)
分布式锁(redis/mysql)
347 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
视觉感知RAG×多模态推理×强化学习=VRAG-RL
通义实验室自然语言智能团队发布并开源了VRAG-RL,一种视觉感知驱动的多模态RAG推理框架。它能像人一样“边看边想”,通过粗到细的视觉仿生感知机制,逐步聚焦关键区域,精准提取信息。VRAG-RL结合强化学习与多专家采样策略,优化检索与推理路径,在多个视觉语言基准数据集上表现出色,显著提升准确性和效率。项目已发布技术方案并开源代码,支持快速部署和二次开发。
168 10
|
人工智能 算法 数据挖掘
【技术揭秘】解锁声纹技术中的说话人日志
说话人日志(speaker diarization)也叫说话人分离,它是从一个连续的多人说话的语音中切分出不同说话人的片段,并且判断出每个片段是哪个说话人的过程。借助说话人日志技术可以完成对音频数据流的结构化管理,具有广泛的应用价值,例如可以利用分离结果进行说话人自适应,以提高语音识别的准确率;可以辅助会议、电话数据进行自动转写构建说话人的音频档案;也可以利用说话人分离技术,实现语料库的自动跟踪和标注。
【技术揭秘】解锁声纹技术中的说话人日志
|
数据可视化 关系型数据库 MySQL
Apache NiFi之MySQL数据同步
一.简述 Apache NiFi是一个易用、强大、可靠的数据处理与分发系统,Apache NiFi的设计目标是自动化管理系统间的数据流Apache NiFi是美国国家安全局(NSA)开发和使用了8年的一个可视化、可定制的数据集产品。
5900 0
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
13240 116
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络
PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。
580 15
|
7月前
|
机器学习/深度学习 人工智能 编解码
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
265 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
|
9月前
|
机器学习/深度学习 算法 PyTorch
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
本文探讨了图神经网络(GNN)与大型语言模型(LLM)结合在知识图谱问答中的应用。研究首先基于G-Retriever构建了探索性模型,然后深入分析了GNN-RAG架构,通过敏感性研究和架构改进,显著提升了模型的推理能力和答案质量。实验结果表明,改进后的模型在多个评估指标上取得了显著提升,特别是在精确率和召回率方面。最后,文章提出了反思机制和教师网络的概念,进一步增强了模型的推理能力。
447 4
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
|
8月前
|
人工智能 算法 大数据
【天池大赛】历届比赛资料
【天池大赛】历届比赛资料
|
机器学习/深度学习 监控 物联网
函数计算操作报错合集之调用接口提示Cannot copy out of meta tensor; no data! 是什么原因
在使用函数计算服务(如阿里云函数计算)时,用户可能会遇到多种错误场景。以下是一些常见的操作报错及其可能的原因和解决方法,包括但不限于:1. 函数部署失败、2. 函数执行超时、3. 资源不足错误、4. 权限与访问错误、5. 依赖问题、6. 网络配置错误、7. 触发器配置错误、8. 日志与监控问题。
663 0

热门文章

最新文章