面向现实世界场景,多语言大数据集PRESTO来了

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
NLP自然语言处理_高级版,每接口累计50万次
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 面向现实世界场景,多语言大数据集PRESTO来了


PRESTO–一个多语言数据集,用于解析现实的面向任务的对话。

虚拟助理正日益融入我们的日常生活。它们可以帮助我们完成很多事情:从设置闹钟到在地图导航,甚至可以帮助残疾人更容易地管理他们的家。随着我们使用这些助手,我们也越来越习惯于使用自然语言来完成那些我们曾经用手完成的任务。


构建强大虚拟助理所面临的最大挑战之一是确定用户想要什么,以及完成这些任务需要哪些信息。在自然语言处理(NLP)的相关文献中,这件事被定义为一个面向特定任务的对话解析任务,其中给定的对话需要由系统解析,以理解用户意图并执行操作来实现该意图。


基于定制化的数据集,如 MultiWOZ、TOP、SMCalFlow 等,学术界在处理面向特定任务的对话方面取得了一些进展。但这些数据集缺乏模型训练所需的典型语音场景,无法优化语言模型性能,仍然有很大的进步空间。由此产生的模型往往表现不佳,用户对互动功能的效果有一些失望。相关的语音场景涉及内容修改场景、不流畅的对话语序场景、不同语言混合使用场景,以及使用围绕用户环境的结构化上下文,其中可能涉及用户的笔记、智能家居、联系人列表等。


例如以下对话,该对话说明了用户需要修改其话语时的一个常见实例:


体现了用户修订的对话实例。


虚拟助理误解了用户的请求,并试图拨打不正确的联系人。因此,用户必须修改他们的话语以纠正助手的错误。为了正确地解析最后一句话,助理还需要解释用户特指的内容 — 在这种情况下,它需要知道用户在他们的手机中保存了一个联系人名单,它应该参考这个名单。


另一类对虚拟助理具有挑战性的困难场景是混合语言采场景,当用户在对助理讲话时从一种语言切换到另一种语言时,就会发生语言混合使用。例如下面的话语:

 

英语和德语文本混合使用的对话示意图。


在本例中,用户从英语切换到德语,其中「vier Uhr」在德语中的意思是「四点钟」。


为了推进解析这种现实存在的复杂语言文本的研究,近日,谷歌助手团队和哥伦比亚大学俞舟教授合作推出一个名为 PRESTO 的新数据集,这是一个用于解析现实任务对话的多语言数据集,其中包括大约 50 万人与虚拟助理之间的现实对话。


该数据集涵盖六种不同的语言,包括用户在使用助手时可能遇到的多种对话场景,包括用户定制改变、不流畅的对话语序场景、不同语言混合使用场景。数据集还包括结构化的上下文,例如用户的联系人列表。PRESTO 对各种场景进行了标注,使人们能够创建不同的测试集来分别分析这些语言场景的模型性能。



论文链接:https://arxiv.org/abs/2303.08954


研究者发现,这些场景中的一些更容易建模,只需很少的样本,而另一些场景则需要更多的训练数据。


数据集特征


涉及六种语言


我们数据集中的所有对话都是由语言对应的原生使用者提供,包括六种语言 —— 英语、法语、德语、印地语、日语和西班牙语。这与其他数据集,如 MTOP 和 MASSIVE 形成了鲜明对比。上述数据集仅将话语从英语翻译成其他语言,并不一定反映以非英语为母语的人的语言模式。


结构化上下文


用户在与虚拟助理交互时,通常会使用存储在设备中的信息,如笔记、联系人和列表。然而,助手通常无法访问此上下文,这可能导致在处理用户话语时出现解析错误。为了解决这个问题,PRESTO 包括三种类型的结构化上下文、注释、列表和联系人,以及用户话语及其解析。列表、笔记和联系人由每种语言的母语使用者在数据收集过程中编写。有了这样的上下文,研究者可以探索如何使用这些信息来提高解析面向任务的对话模型的性能。


PRESTO 中的每个例子都包括:输入 —— 用户的虚拟状态(上下文)、一个或多个用户的对话,以及虚拟助理的回应(对话)。输出 —— 对话中最后一个用户话语的语义解析(parse)。


内容修改场景


用户在与虚拟助理交谈时,修改或纠正自己的话语是很常见的。这些修改发生的原因有很多 —— 助手可能在理解话语方面犯了错误,或者用户在发表话语时改变了他们的想法,例如图二。其他例子包括取消自己的请求(「不要添加任何东西。」)或在同一个语词中纠正自己(「添加面包 — 不,不,等等 — 在我的购物清单上添加小麦面包。」)。在 PRESTO 的所有例子中,大约有 27% 的例子有某种类型的用户修改,并且在数据集中有明确的标记。


语言混合使用场景


截至 2022 年,世界上大约有 43% 的人口是双语的。因此,许多用户在与虚拟助手交谈时都会转换语言。在建立 PRESTO 的过程中,研究者要求双语数据贡献者对语言混合使用的语料进行注释,这些语料约占数据集中所有语料的 14%。


来自 PRESTO 的印地语 - 英语、西班牙语 - 英语和德语 - 英语编码混合语料的例子。


非流畅的对话语序场景


由于人们和虚拟助手的对话中存在很多口语表达,类似重复的短语或填充词这样的断续语在用户的话语中是无处不在的。像 DISFL-QA 这样的数据集注意到现有的 NLP 文献中存在这样的场景,开始致力于跨域这种鸿沟。在本文的工作中,研究者考虑了六种语言下的对话。其中,英语、日语和法语中带有填充词或重复的语料的例子。



主要发现


研究者对上述每一种场景都进行了有针对性的实验,他们使用 PRESTO 数据集训练出一些基于 mT5 的模型,并使用介于预测解析和人工注释解析之间的一种精确匹配方法来对模型进行评估。下面展示了对内容修改场景、非流程的对话语序场景和语言混合使用场景这三种场景中,在不同的训练数据数量下的性能结果。


随着训练数据量的增加,对各种语言场景和完整测试集进行 K-shot 的结果。


可以发现,对目标场景进行零样本学习得到的性能较差,这说明在数据集中使用目标场景中设计的文本来提高性能是有必要的。模型在非流程的对话语序场景和语言混合使用场景下的表现比用户判读要好得多(精确匹配准确度相差 40 多分)。


结论


在该工作中,作者介绍了 PRESTO,一个用于解析面向对话任务的多语言数据集。该数据集涵盖了用户与虚拟助理的日常对话中的各种真实痛点,这些痛点是当前 NLP 社区中现有数据集所缺乏的。


PRESTO 包括大约 50 万个由英语、法语、德语、印地语、日语和西班牙语六种语言的母语使用者贡献的话语。研究者创建了专门的测试集来评估每一种场景 —— 内容修改场景、非流程的对话语序场景和语言混合使用场景以及结构化的上下文。实验的结果表明,当目标场景不包含在训练集中时,零样本的表现较差,这表明需要使用此类语句来提高性能。


同时研究者注意到,内容修改场景、非流程的对话语序场景更容易通过增加更多的数据来完成建模,而语言混合使用场景下即使有更多的样本,也依然难以建模。


随着这个数据集的发布,研究者预期能带来新一轮的探索热潮,他们希望研究界能在用户每天日常聊天场景下进行研究,并且能取得进展。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
SQL 大数据 关系型数据库
大数据面试:面试官要求我了解过Presto——Presto到底是个什么东西
大数据面试:面试官要求我了解过Presto——Presto到底是个什么东西
135 0
|
机器学习/深度学习 分布式计算 数据挖掘
MaxCompute 应用场景实践
MaxCompute 应用场景实践
251 0
|
2月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
61 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
|
2月前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
31 9
|
2月前
|
存储 缓存 NoSQL
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
66 4
ly~
|
2月前
|
供应链 监控 搜索推荐
大数据的应用场景
大数据在众多行业中的应用场景广泛,涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业,大数据用于风险评估、精准营销、反欺诈以及决策支持;零售业则应用于商品推荐、供应链管理和门店运营优化等;医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估;交通物流业通过大数据优化物流配送、交通管理和运输安全;制造业则在生产过程优化、设备维护和供应链协同方面受益;能源行业运用大数据提升智能电网管理和能源勘探效率;政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全;教育行业通过大数据实现个性化学习和资源优化配置;体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。
ly~
452 2
|
3月前
|
人工智能 编解码 搜索推荐
大模型、大数据与显示技术深度融合 加速智慧医疗多元化场景落地
大模型、大数据与显示技术深度融合 加速智慧医疗多元化场景落地
|
4月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
4月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
4月前
|
存储 关系型数据库 大数据
PolarDB 大数据处理能力及其应用场景
【8月更文第27天】随着数据量的爆炸性增长,传统的数据库系统面临着存储和处理大规模数据集的挑战。阿里云的 PolarDB 是一种兼容 MySQL、PostgreSQL 和高度可扩展的关系型数据库服务,它通过其独特的架构设计,能够有效地支持海量数据的存储和查询需求。
103 0