搜狗清华斩获NTCIR-STC2冠军,如何在检索生成两大任务中脱颖而出?

简介: 他认为生成式模型会是未来对话系统的主流。「检索式方法最大的问题就是不能根据特定的问题产生定制的回复,而且其数据库也很难涵盖所有的开放域的对话内容

第十三届 NTCIR 评测比赛于近日正式公布了短文本对话任务(STC2)的赛果。本次比赛吸引了国内共有 11 家企业、29 所大学和研究所,包括 BAT 等企业,以及北京大学、中国人民大学等多所知名高校参与。搜狗搜索联合清华大学人工智能国家重点实验室组成的 SG01 战队首度参战,在 NTCIR13-STC2 评测比赛中以绝对优势排名第一。雷锋网 AI 科技评论第一时间联系了冠军团队,了解本次比赛的个中细节。

往期报道:搜狗搜索联合清华首战NTCIR13-STC2,以绝对优势排名第一

据雷锋网 AI 科技评论了解,SG01 的团队成员共 5 人,包括搜狗搜索研发部研究员赵海舟,杜毅,黎航宇,以及清华人工智能所的研究生钱桥和周昊。搜狗搜索总经理许静芳和清华大学朱小燕、黄民烈教授都对该团队进行了充分指导。

在分工上,清华人工智能所与搜狗合作进行生成模型的设计与验证,另外搜狗还负责检索模型研发、系统搭建以及评测的工作。「搜狗在搜索领域有着十分深厚的技术基础,而清华人工智能所在生成式对话领域也有着丰富的研究基础,二者刚好互补,」钱桥向雷锋网(公众号:雷锋网) AI 科技评论表示。

NTCIR Workshop 是一个针对信息访问(IA)技术(包括信息检索、问题回答、文本摘要、提取等)的评估比赛,经过十余年的发展,现在已经成为一项国际重要赛事。

在 2016 年,第十二届 NTCIR 中首次设置了基于中文、日文两种语料的评测新任务,即短文本对话任务(STC),这也是目前国际上唯一的开放域对话方面的评测比赛。

从语料上讲,一个对话系统可以分为两种,即任务域语料以及开放域语料。任务域是指其对话内容可以被某一任务领域的语料所涵盖,比如订餐,天气查询等等,其对话意图以及语言的复杂性比较可控;开放域是指其对话内容没有限制,可以是生活中的任意对话场景,其对话意图十分广泛,可以说涵盖所有对话意图,语言复杂性也很高。

雷锋网 AI 科技评论从官网获悉,本次赛事共分为两个子任务,即检索任务和生成任务。在检索任务中,研究者需要基于微博作为中文语料(或 Twitter 作为日语语料),并针对给定的一条新微博,通过给定的以往评论知识库检索到对应的连贯且有效的评论;而在生成任务中,则是希望参赛团队能根据给定帖子生成流畅、连贯且有意义的评论。根据规定,这一任务采用与第一个任务相同的知识库。生成器可通过使用统计机器翻译(SMT)模型或基于 RNN 的神经模型进行建模,当然,参赛团队也可以使用其它 NLG 方法。

对于团队而言,检索任务和生成任务可以看作是完全不同的两个任务。「检索任务像是选择题,核心问题是语义相似度的计算。生成任务更漫无边际一些,要做自然语言的生成,并且还要保证与问题的逻辑相关性。」钱桥向雷锋网 AI 科技评论表示,在问题层面,生成模型产出的结果可以通过检索模型进行重排序。在模型层面,二者都用到了深度学习模型,相互的借鉴是很有必要的。

钱桥告诉雷锋网 AI 科技评论,本次比赛所采用的所有模型都是基于 Seq2Seq 模型的,「它可以看作一个带有 Attention 的 RNN-Encoder-Decoder,此外我们还使用了 VAE 等模型。比赛中我们还使用了基于检索以及基于学习的方法对 Beam-Search 生成的结果进行重排序,从而挑选出更为合理的回复。」

在基于检索的方法中,搜狗团队告诉雷锋网 AI 科技评论,检索式的对话系统主要使用了 deep match 和 learning to rank 的技术,除此之外还加入了生成式的 seq2seq 模型的生成概率作为 feature 进行排序。

由于这次比赛在过程中并没有组织公开的评测,而是在比赛结束后统一评测,钱桥表示,这使得 SG01 团队在比赛过程中只能跟自己比较,自己就是自己最强劲的对手。「在组长的安排下,我们每周都会组织一次评测工作,评测标准与大赛一致且都是人工评测。这个评测结果驱动着我们挑战现有的最好模型,从而创造更好的模型。」

而在评审阶段,团队认为一条评论是否「合适」(符合评分标准)主要从两个方面入手,一是语法性和通顺性,第二是评论与原贴的逻辑关系的合适程度。

除此之外,主办方还有更加详细的指标,如信息量和场景依赖等,但 SG01 团队表示,通过他们所进行的测试看来,前两点还是起了更加重要的作用。「技术上我们通过多个模型的集成学习来增加多样的评论候选列表,并且通过重排序模型进行后处理选出最合适的评论。」

而在与钱桥交流的过程中,他认为生成式模型会是未来对话系统的主流。「检索式方法最大的问题就是不能根据特定的问题产生定制的回复,而且其数据库也很难涵盖所有的开放域的对话内容。从这两点来看,生成式的方法可以根据有限的语料学习到人类对话的模式,根据特定问题产生定制的回复,从技术上来讲有成为未来的主流对话系统的可能性。」

比赛虽然已经告一段落,但 SG01 团队依然在为年底的 NTCIR-13 会议做准备。而从对话系统研究的角度来讲,团队正在尝试解决多轮对话系统中的一些问题,比如上下文一致性,话题相关性等,雷锋网 AI 科技评论也将持续关注,希望搜狗和清华人工智能所团队能继续针对这一领域给我们带来更多的惊喜。



本文作者:奕欣
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
16天前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
破壁人AI百度:科技公司反内卷的典型样本
22 0
|
8月前
|
人工智能 云计算 数据安全/隐私保护
德勤携手阿里云举办2023首席数字官晚宴
近日,德勤携手阿里云在上海成功举办主题为“中国数字化新篇章”(The New China Digital Story) 的2023首席数字官晚宴。数十位来自消费品、汽车、医药等行业的领先企业的首席数字官(CDO)或首席信息官(CIO)受邀参加晚宴,共话中国数字化转型的新机遇与新挑战。
|
人工智能 自然语言处理 自动驾驶
破壁人 AI 百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。
破壁人 AI 百度:科技公司反内卷的典型样本
|
11月前
|
编译器 Linux C语言
Linux-Conda环境安装指定版本GCC 编译phylocom-4.2 Debug记录
本文记录了在Linux上编译phylocom-4.2过程中处理一系列异常的 Debug过程,希望可以为在Conda环境中遇到类似GCC问题的小伙伴提供一些参考。
697 0
|
9月前
|
机器学习/深度学习 Web App开发 人工智能
领航未来,探索AI无尽前沿:2023年WAIC云帆奖得主揭晓
领航未来,探索AI无尽前沿:2023年WAIC云帆奖得主揭晓
475 0
|
机器学习/深度学习 存储 传感器
70年AI发展迎来大一统?马毅、曹颖、沈向洋最新AI综述:探索智能发生的基本原则与「标准模型」
70年AI发展迎来大一统?马毅、曹颖、沈向洋最新AI综述:探索智能发生的基本原则与「标准模型」
250 0
|
TensorFlow 算法框架/工具 异构计算
tensorflow-gpu-2.3.1安装 tensorflow安装 GPU版本tensorflow安装 tensorflow搭建
tensorflow-gpu-2.3.1安装 tensorflow安装 GPU版本tensorflow安装 tensorflow搭建
378 0
|
机器学习/深度学习 算法 Python
python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解
python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解
2884 0
python机器学习 train_test_split()函数用法解析及示例 划分训练集和测试集 以鸢尾数据为例 入门级讲解
anaconda创建一个新的虚拟环境
anaconda创建一个新的虚拟环境
anaconda创建一个新的虚拟环境
|
机器学习/深度学习 数据可视化 Python
机器学习实战二:波士顿房价预测 Boston Housing(上)
机器学习实战二:波士顿房价预测 Boston Housing
机器学习实战二:波士顿房价预测 Boston Housing(上)