Meta 宣布 CAIRaoke 项目:通过在对话式人工智能方面的突破打造未来语音助手

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 我们可以设想,在未来的数年内,CAIRaoke 项目的技术将会成为人们与设备间下一代交互的基石。在 VR 头盔和 AR 眼镜方面,我们期望这类交流能够像触摸屏取代智能手机的键盘一样,实现无处不在的、无缝的导航和交互。

如果我们能够用自然的对话方式和人工智能助手进行交流,就如同我们和人类的交流,那么我们的生活将会变得更加方便。然而,不管我们是用语音还是文字进行交流,今天的语音助手都不能让人印象深刻。

为了实现这一目标,我们非常荣幸地向大家宣布 CAIRaoke 项目。我们已经开发出一种端到端的神经模型,它能支持更加个性化和上下文的对话。我们已经将 CAIRaoke 项目所生成的模型应用到我们的产品 Portal,目的是将其与 VR 和 AR 结合起来,这样将来就可以和语音助手进行沉浸式、多模态的交互。

对于更好的对话式人工智能来说,最大的障碍也许是为当今最先进的助手赋能的架构。尽管这些系统仅提供一种服务,但是它们实际上是由四大组件组成:自然语言理解(natural language understanding,NLU)、对话状态跟踪(dialog state tracking,DST)、对话策略(dialog policy,DP)管理和自然语言生成(natural language generation,NLG)。然后,这些不同的人工智能系统需要相互连接,因此很难进行优化,不能很好地适应新的或者陌生的任务,并且高度依赖劳动密集型的注释数据集。

正因为如此,如今支持大部分设备的数字助理才会将用户限制在有限的选择范围内,而忘记了对话的上下文,并且大部分时间都是按照规定的对话流程来进行。举例来说,你可能会问助手关于本地天气预报的问题,但是如果你追问了一个简单却意想不到的问题,比如说,“今天是不是比上个礼拜还热啊?”助手就会感到困惑。

利用 CAIRaoke 项目所创建的模型,用户可以与他们的对话助手进行自然的交谈,这样它们就可以在谈话中引用以前的内容,彻底改变谈话的主题,或提及需要理解复杂而微妙的上下文内容。它们也可以用新的方法来和他们交流,比如用手势。

我们已经开始在 Portal(Meta 的视频通话设备)上应用这个模型,使得创建和管理提醒变得更加方便。比如,你可以快速澄清像下面这样的请求,而无需重复:

👩: 设置 6:30 的提醒。

✅:是在早上还是晚上?

👩: 在晚上,就叫买鸡蛋吧。

✅:好的,你的买鸡蛋提醒设置为明天下午 6:30。

即使在这个早期的测试中,我们也相信这个模型优于标准方法。在 Portal 上,我们观察到,与我们现有的方法相比,在提醒领域的评估方面有了显著的改进,这是通过完成一组提醒目标的成功率来衡量的,同时保持了正常的回合次数。

但是,这仅仅是使用这项新技术的一个开始。我们坚信,CAIRaoke 项目所取得的进展,将会让我们在人类和人工智能之间进行更加广泛的沟通,而这将成为我们为元宇宙构建的一个重要工具。内置在 AR 眼镜中的 CAIRaoke 项目助手,有朝一日可能会以许多新的、有用的方式继续下去。例如,当你问助手:“这条裤子搭配什么衣服好看?”它会回答:“这里有一件你最喜欢的颜色,红色的衬衫。”并显示它为你找到的物品图像。如果你说,“我喜欢这件,但条纹太宽了”,它就会向你显示一个细条纹的版本。

在未来,我们希望能够利用这个项目所生成的模型,为世界各地数以百万计的人提供类似的日常应用。

构建真正的交互对话

对话式人工智能的推进,一个必不可少的步骤就是要全面理解问题。很多人都看到了近年来 BERT 和 GPT-3 等在自然语言理解上的巨大进步,他们相信,理解和生成和人类一样的文本的问题已经被克服了。要搞明白为何我们至今仍未解决这个问题,我们就得将用于理解的人工智能和用户交互的人工智能区分开来。前者在整个行业得到了很好的研究和发展。它可以从各种输入模式中提取意义,比如自动语音识别、图像分类和自然语言理解。而后者则是我们怎样运用自己对这个世界的认识,运用技术来和他人进行交流。它可以是发送文本、语音指令、触觉反馈、显示图像、视频、头像表情,或者所有这些的组合。

整个行业的研究人员和工程师一致认为,良好的对话系统必须有一套牢固的、基于人工智能模型的理解层。但是很多人把交互看作是一个工程学的问题,而非人工智能的问题。这样,一个了解世界状况的工程师就能创造出一套精心设计的逻辑来应对所需要的交互。这样的工程方法可以让人们更好地了解该系统的工作原理,并且在需要时能够迅速地进行逻调试。但是,这个普遍的信念会使对话式人工智能不那么强大,这就是为什么你无法通过这种助手来轻松规划假日。

一种新的、统一的方法

image.png

这些示例对话展示了我们希望助手具备的关键技能:不仅仅是提供准确的、最新的现实世界的知识,还包括多模态的工作(在这种情况下,跨越视觉和语音),跨领域的工作(发送信息,同时估计你的到达时间),以及让你推动对话,而不是需要遵循僵化的对话模板。

人工智能助手的规范方法需要四套输入和输出:管道的每一层(自然语言理解、对话状态跟踪、对话策略和自然语言生成)各有一套。同时,也要求为每一层的输入和输出定义标准。比如,对于自然语言理解,传统的对话式人工智能系统需要定义本体(例如各种意图和实体)。

但是,我们的模型采用了神经网络,根本不需要规定对话流程。有了这个模型,我们只需要一组训练数据。

CAIRaoke 项目减少了增加一个新领域所需的工作。在规范方法中,扩展到一个新的领域需要依次构建和修复每个模块,然后才能可靠地训练下一个模块。换句话说,如果自然语言理解和对话状态跟踪每天都在变化,那么训练对话策略就无法有效进行。其中一个组件的变化可能会导致其他组件的损坏,从而引发对随后的所有模块的重新训练。这种相互依赖性会使后续模块进度变慢。但是,我们采用了端到端的技术,消除了对上游模块的这种依赖性,从而加快开发和训练的速度,让我们可以在较小的工作量和较少的数据的情况下,对其他模型进行微调。

有了我们的新方法,对话会变得更加稳健,因为它们能够通过在一个地方查看全方位的信息,从而作出决策。在此之前,甚至在某个组件上的一些微小的错误,都可能以意想不到的、难以解决的方式传播到其他组件上。比如,现在,基于规则的助手被明确编程为寻找特定的单词或短语:在一个数字后面跟着的“p.m.”表示下午,而 CAIRaoke 项目利用先进的预训练语言模型,可以更好地理解上下文,并且能够辨别出说同一事物的不同方式。

最后,CAIRaoke 项目融合了支持 Meta AI 最新对话机器人的技术——BlenderBot 2.0,融入面向任务的对话。这意味着使用我们的模型构建的助手能够表达有同理心的语言,实时转述通过搜索互联网找到的知识,并且显示出一致的个性。

在系统生成自然语言的过程中,存在着一些潜在的安全性和隐私权的问题。如今,大部分的自然语言生成组件都带有脚本,因此,内容管理人员可以保证助手不会给用户提供令人反感的回应。但由于助手直接与用户相连,就有可能出现错误或令人反感的互动。

当系统生成自然语言时,必须解决潜在的安全和隐私挑战。今天,大多数自然语言生成组件都是有脚本的,这样内容管理者就能确保助手不会向用户提供令人反感的回应。但是,通过将助手直接与用户相连,就有可能出现错误或令人反感的互动,这一点已经广泛地被公众所看到, 饱受诟病。

重要的是,我们已经合并内置于 BlenderBot 中的安全措施,这将有助于减少攻击性反应的发生。在开发助手技术的时候,我们还把隐私问题考虑了进去。比如,在 Ray-Ban Stories 和 Portal 语音命令的使用是可选的选项,你可以查看和删除你的语音命令的记录,而且你还可以随时关闭语音存储。

为了减少对用户产生不良反应的风险,CAIRaoke 项目的第一个里程碑是同时生成对话动作和自然语言。在短期内,我们生成对话动作,并依靠一个经过测试和严格约束的自然语言生成系统来提供用户回应。从长远来看,在确保我们模型的端到端完整性之后,我们将公开所生成的语句。

另一个问题,也是其他种类的自然语言处理系统所共有的,那就是幻觉,即当一个模型自信地说出不正确的信息。这对端到端技术是一个巨大的挑战,因为在会话中,模型可以很轻易地将实体引入或者修改。例如,你让助手“设置一个给 Ankita 打电话的提醒”,它可能会设置一个给 Ankit 打电话的提醒,因为 Ankita 是一个不太常见的名字。我们使用了各种数据增强技术和注意力网络来增加 CAIRaoke 项目的健壮性,并利用我们与 BlenderBot 2.0 的工作来减少幻觉。

使用语音完成无数的日常任务

虽然我们对 CAIRaoke 项目模型的短期实施是在 Portal 上的提醒,但我们期望不久就会应用到更广泛的地方,这将帮助人们的购物体验个性化,让助手可以在大量的交谈中保持上下文,让人们可以继续进行交流。

我们也相信,这项进步尤其有助于构建以人工智能为基础的对话能力。在不远的将来,人们会像现在智能音箱、智能手表等其他设备那样,经常在 AR 眼镜上使用语音助手。鉴于此,我们正致力于缩小像这样的端到端的模型大小,使其适合在设备上使用,因为设备上的模型还能提供额外的安全、隐私和性能上的优势。我们也正在尝试让模型更易于调试,这是一项非常复杂的挑战,因为在新的框架中,信息以嵌入空间的形式表示,而在规范模型中则是显式的。为了让 CAIRaoke 项目能够完全实现,我们还必须把它推广到很多种语言中,并且寻找一种可以在亿级规模上高效应用这种模型的方法。

我们可以设想,在未来的数年内,CAIRaoke 项目的技术将会成为人们与设备间下一代交互的基石。在 VR 头盔和 AR 眼镜方面,我们期望这类交流能够像触摸屏取代智能手机的键盘一样,实现无处不在的、无缝的导航和交互。我们现在的模型是向前迈出的重要一步,但是要完全达到这个目标愿景,我们仍需要付出更多的努力。我们对目前所取得的进步以及今后面临的各种挑战都感到兴奋。

作者介绍:

Alborz Geramifard,Meta AI 高级研究主管,研究对话式人工智能。曾领导过亚马逊 Alexa 的对话式人工智能团队。2008 年获阿尔伯塔大学硕士学位,2011 年活麻省理工学院博士学位,曾在麻省理工学院信息与决策系统实验室的博士后研究员。是 2010~2012 年 NSERC 研究生奖学金项目的获得者。曾担任过 EMNLP 和 ACL 的区域主席。

原文链接:

https://ai.facebook.com/blog/project-cairaoke#circle=on

目录
相关文章
|
2月前
|
机器学习/深度学习 算法 TensorFlow
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
动物识别系统。本项目以Python作为主要编程语言,并基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集4种常见的动物图像数据集(猫、狗、鸡、马)然后进行模型训练,得到一个识别精度较高的模型文件,然后保存为本地格式的H5格式文件。再基于Django开发Web网页端操作界面,实现用户上传一张动物图片,识别其名称。
93 1
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
|
16天前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
23天前
|
人工智能 安全 网络安全
揭秘!大模型私有化部署的全方位安全攻略与优化秘籍,让你的AI项目稳如磐石,数据安全无忧!
【10月更文挑战第24天】本文探讨了大模型私有化部署的安全性考量与优化策略,涵盖数据安全、防火墙配置、性能优化、容器化部署、模型更新和数据备份等方面,提供了实用的示例代码,旨在为企业提供全面的技术参考。
68 6
|
2月前
|
机器学习/深度学习 人工智能 算法
植物病害识别系统Python+卷积神经网络算法+图像识别+人工智能项目+深度学习项目+计算机课设项目+Django网页界面
植物病害识别系统。本系统使用Python作为主要编程语言,通过收集水稻常见的四种叶片病害图片('细菌性叶枯病', '稻瘟病', '褐斑病', '稻瘟条纹病毒病')作为后面模型训练用到的数据集。然后使用TensorFlow搭建卷积神经网络算法模型,并进行多轮迭代训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地模型文件。再使用Django搭建Web网页平台操作界面,实现用户上传一张测试图片识别其名称。
123 22
植物病害识别系统Python+卷积神经网络算法+图像识别+人工智能项目+深度学习项目+计算机课设项目+Django网页界面
|
1月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
56 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索未来AI趋势:掌握Function Calling技巧,解锁大模型精度提升的秘密武器,让你的数据科学项目事半功倍!
【10月更文挑战第6天】随着深度学习技术的发展,神经网络模型日益复杂,Function Calling作为一种机制,在提升大模型准确度方面发挥重要作用。本文探讨Function Calling的概念及其在大模型中的应用,通过具体示例展示如何利用其优化模型性能。Function Calling使模型能在运行过程中调用特定函数,提供额外的信息处理或计算服务,增强模型表达能力和泛化能力。例如,在文本生成模型中,根据上下文调用词性标注或实体识别等功能模块,可使生成的文本更自然准确。通过合理设计条件判断逻辑和功能模块权重,Function Calling能显著提升模型整体表现。
51 3
|
2月前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
107 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
2月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
93 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
20天前
|
人工智能 Anolis 开发者
|
1月前
|
人工智能 自动驾驶 机器人
【通义】AI视界|苹果自动驾驶汽车项目画上句号:加州测试许可被取消
本文精选了24小时内的重要科技新闻,包括Waymo前CEO批评马斯克对自动驾驶的态度、AMD发布新款AI芯片但股价波动、苹果造车项目终止、Familia.AI推出家庭应用以及AI逆向绘画技术的进展。更多内容请访问通义官网体验。

热门文章

最新文章

下一篇
无影云桌面