1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文

简介: 1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文

语言模型可以完成不同任务,例如将一种语言翻译成另一种语言,将长文档总结为简短的摘要等。在众多任务中,开放域对话可能是最困难的任务之一,因为开放域对话需要模型覆盖不同的主题。在对话任务中,模型应该遵循负责任 AI(Responsible AI)实践,并避免做出没有外部信息源支持的事实陈述。

近日,超过 50 多位谷歌研究者参与撰写的论文《 LaMDA: Language Models for Dialog Applications 》介绍了语言模型 LaMDA 的最新进展。论文概括了他们如何在安全、可靠和高质量的对话应用程序方面取得进展。LaMDA 通过微调一系列专门用于对话的、基于 Transformer 的神经语言模型构建的,具有多达 137B 个参数,模型还可以利用外部知识源进行对话。


论文地址:https://arxiv.org/pdf/2201.08239.pdf

来自谷歌大脑的论文作者之一 Romal Thoppilan 表示:LaMDA 模型使用多达 137B 个参数进行训练,它展示了接近人类水平的对话质量以及在安全性和事实基础方面具有显着改进。


目标和度量

指导训练对话模型包括两个至关重要的因素:目标和度量。LaMDA 有三个主要目标——质量、安全和根基性(Groundedness)。

质量:谷歌将质量分解为三个维度,即合理性、特异性和趣味性 (Sensibleness, Specificity, Interestingness,SSI),由人类评估者进行评估。

  • 合理性是指模型是否产生在对话上下文中有意义的响应(例如,没有常识错误,没有荒谬的回应,以及与先前的回应没有矛盾);
  • 特异性是通过判断系统的响应是否特定于前面的对话上下文来衡量的,而不是适用于大多数上下文的通用回应;
  • 趣味性是衡量模型是否产生了富有洞察力、出乎意料或机智的回应,因此更有可能创造更好的对话。


安全:谷歌还在开发和部署负责任 AI(Responsible AI)方面取得了重大进展。其安全度量由一组说明性的安全目标组成,这些目标捕捉模型应在对话中展示的行为。这些目标试图限制模型的输出,以避免任何可能对用户造成伤害的意外结果,并避免加剧不公平的偏见。

根基性:当前这一代语言模型通常会生成看似合理但实际上与已知外部事实相矛盾的陈述。这激发了谷歌对 LaMDA 根基性的研究。不携带任何真实世界信息的随意回应都会影响信息性,但不会影响根基性。虽然在已知来源中建立 LaMDA 生成的响应本身并不能保证事实的准确性,但它允许用户或外部系统根据其来源的可靠性来判断响应的有效性。

LaMDA 预训练与微调

在定义了目标和度量之后,谷歌描述了 LaMDA 的两阶段训练:预训练和微调。

LaMDA 预训练

在预训练阶段,谷歌首先从公共对话数据和其他公共网页文档中收集并创建了一个具有 1.56T 单词的数据集,是用于训练以往对话模型的单词量的近 40 倍。在将该数据集标记为 2.81T SentencePiece token 之后,谷歌使用 GSPMD 预训练模型,以预测句子中的所有下一个 token。预训练的 LaMDA 模型已被广泛应用于谷歌的自然语言处理研究中,包括程序合成、零样本学习、风格迁移等。

LaMDA 微调

在微调阶段,谷歌训练 LaMDA,执行混合生成任务以生成对给定上下文的自然语言响应,执行关于响应是否安全和高质量的分类任务,最终生成一个两种任务都能做的多任务模型。LaMDA 生成器被训练预测限制为两个作者之间来回对话的对话数据集上的下一个 token,LaMDA 分类器被训练预测使用注释数据在上下文中生成的响应的安全与质量(SSI)评级。

对话期间,LaMDA 生成器首先在给定当前多轮对话上下文时生成几个候选响应,然后 LaMDA 预测每个候选响应的 SSI 和安全分数。安全分数低的候选响应首先被过滤掉,剩下的候选响应根据 SSI 分数重新排名,并选择分数最高的作为最终响应。谷歌使用 LaMDA 分类器进一步过滤掉用于生成任务的训练数据,以增加高质量候选响应的密度。

LaMDA 生成一个候选响应并对其评分。


LaMDA 通过合理、特异和有趣的方式处理任意用户输入。

事实根基

虽然人们能够使用工具并参考已建立的知识库来检测事实,但很多语言模型仅利用内部模型参数来获取知识。为了提高 LaMDA 原始响应的根基性,谷歌收集并创建了人类与 LaMDA 之间对话的数据集,这些对话在适用的情况下使用检索查询和检索结果进行注释。然后,谷歌在这个数据集上微调了 LaMDA 的生成器和分类器,以学习与用户交互期间调用外部信息检索系统,并提升响应的根基性。虽然这一工作还处于非常早期的阶段,但谷歌看到了有希望的结果。

零样本域自适应:看起来非常真实的假装是珠穆朗玛峰的 LaMDA 对话示例。结果表明,对话主体「珠穆拉玛峰」提供了教育性和事实正确的响应。

评估

为了根据自己的关键度量来量化进展,谷歌收集来自预训练模型、微调模型、人类评估者(即人类生成的响应)对多轮双作者对话的响应,然后向不同的人类评估者问一系列问题,从而根据质量、安全性和根基性度量来评估这些响应。

谷歌观察到,LaMDA 在每个维度和所有模型大小情况下都显著优于预训练模型,合理性、特异性和趣味性等质量度量通常会随模型参数量提升,无论微调与否。安全性似乎无法仅从模型缩放中收益,但确实可以通过微调提升。随着模型大小的增加,根基性也提升,这或许是因为更大的模型具备更大的记住不常见知识的能力,但微调使模型可以访问外部知识源并有效地将记住知识的负载转移到外部知识源。微调还可以缩小与人类水平的质量差距,尽管该模型在安全性和根基性方面的性能依然低于人类。


在合理性、特异性、趣味性、安全性、根基性和信息性等方面比较预训练模型(PT)、微调模型(LaMDA)和人类评估者生成对话(Human)。


原文链接:https://ai.googleblog.com/

相关文章
|
机器学习/深度学习 人工智能 并行计算
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
1355 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
|
人工智能
AI Undetect:精心打造的人工智能,编写出无限接近人类质量的文本
【AI Undetect & AI Humanize】工具组合助力保持文本原创性与真实性,避过AI检测。AI Undetect专为绕过检测系统设计,而AI Humanize提供检测与改写功能。检测文本是否由AI生成,或用其快速高质量改写。改写后内容同样可检验证明效果。尝试链接:[AI Humanizer](https://aiundetect.com/)。
AI Undetect:精心打造的人工智能,编写出无限接近人类质量的文本
|
人工智能 自然语言处理 机器人
AI大战因Claude 3而升温,自称拥有接近人类的能力
AI大战因Claude 3而升温,自称拥有接近人类的能力
|
人工智能 小程序 机器人
AI配音 | 接近真人发音的机器人,小程序上线了!
而这一次,给大家带来的是小程序和更多播讲人的上线,合成更加方便,直接手机就能完成。
713 0
|
人工智能 自然语言处理 安全
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
403 0
|
人工智能 自然语言处理 安全
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
923 0
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
|
达摩院 人工智能 双11
达摩院最新AI技术助力天猫双11,提供接近真人的语音交互体验
11月8日,记者了解到,阿里巴巴达摩院机器智能实验室最新研究成果——KAN-TTS将首次大规模应用于今年天猫双11,基于该技术,菜鸟热线机器人、语音机器人小蜜以及天猫精灵将为全球消费者提供接近真人的语音交互体验。
782 0
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1322 56
|
6月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1255 59
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
646 30

热门文章

最新文章