达摩院智能对话技术升级-更人类，更温暖-通义对话大模型SPACE加持下的新一代对话智能-SPACE：打造分布式对话智能-阿里云开发者社区

达摩院智能对话技术升级-更人类，更温暖-通义对话大模型SPACE加持下的新一代对话智能-SPACE：打造分布式对话智能

2023-05-22 538

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 达摩院智能对话技术升级-更人类，更温暖-通义对话大模型SPACE加持下的新一代对话智能-SPACE：打造分布式对话智能

作者：李永彬，阿里巴巴达摩院资深算法专家

过去一年，达摩院对话智能的基础研究与阿里云智能客服的业务落地，都取得了很多成果。工作人员打造了达摩院通义对话大模型SPACE体系。基于SPACE体系，不但提升了各行各业的对话效果，更重要的是带来了一系列崭新的对话能力。

对话智能是由多种不同的多轮对话形态组成。在客服领域，主要是任务型对话、表格型对话、文档型对话。其中，任务型对话是相对发展时间最长，当前最成熟的对话形态；在文本对话领域里，任务型对话成熟度高，具备解决客户各类问题的能力。但是当任务型对话从文本领域进入语音交互领域，会遇到一些新的挑战。用户通常觉得它并不够智能。

表格型对话是近年来发展最快的新引擎。表格型对话在业务落地过程中，遇到最大的挑战是数据标注成本非常高。我们无法想象，假设每做一个业务场景就要标注几百条SQL，基本无法实现落地；只有做到表格即插即用，问题开箱即用，整个Table QA方向才能够真正大规模落地。

文档型对话是一个老生常谈，但截止到现在，仍没有解决特别好的的一个问题。过去数年中，围绕文档机器阅读技术曾经如火如荼的发展过，但在落地时遇到了很多挑战；一方面是由于模型规模较大，性能跟不上，延迟太长，效果差强人意；另一方面机器阅读技术是一个黑盒，不可干预也很难进行解释，所以在整个多轮对话方面还是遇到了不小的挑战。

过去一年围绕着上述这些挑战，我们给出了一个体系化的解决方案，打造了达摩院通义对话模型SPACE；基于这样的大模型，我们希望对上述这些问题进行一个系统化解决。

l 在任务型对话方面，打造了SPACE对话大模型。基于SPACE，进一步提出了分布式对话智能概念，并且进行了落地。

l 在表格型对话方面，打造了SPACE-T对话大模型。基于SPACE-T，把Table QA在客服问答领域做到了开箱即用的落地，进一步把这个技术从客服问答推向智能BI领域。

l 在文档型对话方面，打造了SPACE-D大模型。基于SPACE-D，把文档对话在业务中实现了落地，并在可解释和可信赖方面取得了一些突破性进展。

SPACE是指我们提出的“半监督预训练对话模型”的简称。在过去，预训练主要基于有标注数据的监督训练，或者无标注数据的自监督训练；为什么叫半监督预训练对话模型呢？我们先来简单回顾下整个预训练的发展过程。

在2018年以前，预训练在图像领域率先开始发展。当时以大规模标注数据为基础，通过监督训练的方法得到大模型。2018年以后，在NLP领域里，网上有海量无标注的网页数据。基于这些海量的无标注数据如何训练大模型呢，大家开始通过自监督方法训练大模型。

在过去，预训练整体发展方法要么基于有标注数据的监督训练，要么就是基于无标注数据的自监督训练。

阿里云智能客服在业务落地的过程中，积累了大量的标注数据。在这些数量可观的标注数据中，一方面，蕴含了各行各业的业务知识，更重要的是包含了大量人工标注知识，也就是把人类的经验注入其中。另一方面，阿里云智能客服还举例了海量无标注的对话日志、对话数据。

为了更好的融合上述数据的表现，阿里云智能客服在业界率先提出了“半监督预训练”的概念。希望通过半监督技术，把有标注数据和无标注数据，一起训练大模型。通过半监督的方式，把标注数据中的知识，注入到阿里云智能客服的预训练大模型中，从而实现数据支持双驱动的训练模型。

探索过程中为了实现上述目标，阿里云做的第一个模型叫“SPACE-1”。对话主要分为三个典型阶段，即对话理解、对话策略、对话生成。在我们之前，对话理解、对话生成模型已经在学术界出现了，但在对话策略上仍处于空白。作为多轮对话重要的步骤之一，对话策略作为桥梁，链接起对话理解和对话生成。

所以在SPACE-1中，我们把对话策略知识注入到阿里云的大模型里。最后SPACE-1在对话领域里最知名的国际对话数据集MultiWoz（引用量770）上提升了5+，5+是什么概念呢？在此之前，大家研究提升零点几或1后，即可发表一篇顶会论文。验证了我们在半监督这条到道路上前进是正确的，有了这个信心后，我们继续往下探索。

对话策略中的知识相对简单，只是些分裂的标签，大概20几种，是一个简单的，封闭集上的知识。我们希望可以把半监督的概念进一步拓展到语言或对话理解中去。

进入对话理解以后，知识变得非常复杂，从简单的标签变成一颗颗的语义树；除此之外，语言、对话理解是一个开放集，理论上有无穷多的语义，没有办法像对话策略一样枚举出来。在SPACE-2里，针对话理解知识做了整体注入，取得了卓越的效果。在DialoGLUE榜单的全量数据、小样本数据中以显著优势取得双榜第一。

SPACE-3采用一个Dialog Encoder、三个Decoder的架构。其中，三个Decoder分别代表对话理解、对话策略和对话生成，成功实现一体化建模。SPACE-3在包含理解、策略和端到端生成等任务的8个国际公开对话数据集上取得最好的效果。

在过去一年，达摩院智能客服围绕对话大模型，做了SPACE-1/2/3的体系化工作，在整个学术界率先提出半监督训练的新范式。通过半监督，把人类知识注入到大模型中。SPACE-1/2/3模型，共在11个不同国际对话数据集取得最好的效果，基本覆盖多轮对话领域主要数据集。

另一方面我们也得到了学术会议的认可。SPACE-1被AAAI 2022录用，SPACE-2被COLING 2022录用，并且获得了best paper推荐，SPACE-3被SIGIR 2022录用。

除了在学术成果研究外，我们把SPACE中文模型，在阿里云智能客服中全面落地。显著提升了各行业各场景效果。

以意图理解为例，我们把数据标注量降低了70%，效果仍可达到90%以上。在槽位抽取上，实现了零样本下的模型上限，效果较之前提升大约10%。这些提升都处于大模型范畴内可预见。对于Space来说，它带来一些原来无法实现的新对话能力。

当任务型对话从文本领域进入语音交互时，在语音场景下，对话仍会遇到非常大的挑战。为什么在语音场景下会遇到这样的问题呢？我们还是回到任务型对话的实现方式上。

任务型对话其实是对业务场景里逻辑流程的真实反映。在构建任务型对话时，通过意图节点、填槽节点、以及调用外部服务的函数节点连线，打造对话流程。

业务复杂度与对话成同比增长关系。当从文本对话进入语音对话，在文字时代，仅通过打字即可一次性收集完毕，进入到语音对话后，交互变得非常复杂，需要考虑语音识别错误、环境噪音、用户表达习惯等因素，进一步增加增、删、改复杂性，所以任务型对话总结后会变成流程嵌套流程的结构模式，带来几何级的复杂度提升。

为了解决上述问题，阿里云智能客服提出自底向上分而治之，把里面每个子流程，做成端到端的模型，整个对话变成主流程，反映业务逻辑，忠实于业务本身，做到逻辑可控。在子流程上因为实现了端到端的流程化，具备了灵活、类人的能力。整体来看，整个任务型对话变成了一个由多个独立的小智能体，结合在一起的大智能体。类比整个学术界分布式的概念，我们把其命名为“分布式对话智能”。

但阿里云在实现分布式对话智能时，仍遇到了很多挑战。整体上看，分布式对话智能面临了口语化、句子碎、轮次多、ASR错误严重、增删改频繁，另外在口语化过程中过于依赖世界知识和常识，学术界在此之前尚未有明确定义。

我们率先定义了这个问题，提出的首个数据集目前已在ACL2022发布，同时基于SPACE大模型进行落地，基于SPACE大模型把语言理解、对话策略、语言生成、整个过程中的知识预测进行一体化建模。

目前，目前该能力已经在智能客服产品矩阵实现落地，几十家客户已经使用，欢迎大家在自己的业务中进行体验。

达摩院智能对话技术升级-更人类，更温暖-通义对话大模型SPACE加持下的新一代对话智能-SPACE：打造分布式对话智能

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景