1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文

简介: 1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文

语言模型可以完成不同任务,例如将一种语言翻译成另一种语言,将长文档总结为简短的摘要等。在众多任务中,开放域对话可能是最困难的任务之一,因为开放域对话需要模型覆盖不同的主题。在对话任务中,模型应该遵循负责任 AI(Responsible AI)实践,并避免做出没有外部信息源支持的事实陈述。

近日,超过 50 多位谷歌研究者参与撰写的论文《 LaMDA: Language Models for Dialog Applications 》介绍了语言模型 LaMDA 的最新进展。论文概括了他们如何在安全、可靠和高质量的对话应用程序方面取得进展。LaMDA 通过微调一系列专门用于对话的、基于 Transformer 的神经语言模型构建的,具有多达 137B 个参数,模型还可以利用外部知识源进行对话。


论文地址:https://arxiv.org/pdf/2201.08239.pdf

来自谷歌大脑的论文作者之一 Romal Thoppilan 表示:LaMDA 模型使用多达 137B 个参数进行训练,它展示了接近人类水平的对话质量以及在安全性和事实基础方面具有显着改进。


目标和度量

指导训练对话模型包括两个至关重要的因素:目标和度量。LaMDA 有三个主要目标——质量、安全和根基性(Groundedness)。

质量:谷歌将质量分解为三个维度,即合理性、特异性和趣味性 (Sensibleness, Specificity, Interestingness,SSI),由人类评估者进行评估。

  • 合理性是指模型是否产生在对话上下文中有意义的响应(例如,没有常识错误,没有荒谬的回应,以及与先前的回应没有矛盾);
  • 特异性是通过判断系统的响应是否特定于前面的对话上下文来衡量的,而不是适用于大多数上下文的通用回应;
  • 趣味性是衡量模型是否产生了富有洞察力、出乎意料或机智的回应,因此更有可能创造更好的对话。


安全:谷歌还在开发和部署负责任 AI(Responsible AI)方面取得了重大进展。其安全度量由一组说明性的安全目标组成,这些目标捕捉模型应在对话中展示的行为。这些目标试图限制模型的输出,以避免任何可能对用户造成伤害的意外结果,并避免加剧不公平的偏见。

根基性:当前这一代语言模型通常会生成看似合理但实际上与已知外部事实相矛盾的陈述。这激发了谷歌对 LaMDA 根基性的研究。不携带任何真实世界信息的随意回应都会影响信息性,但不会影响根基性。虽然在已知来源中建立 LaMDA 生成的响应本身并不能保证事实的准确性,但它允许用户或外部系统根据其来源的可靠性来判断响应的有效性。

LaMDA 预训练与微调

在定义了目标和度量之后,谷歌描述了 LaMDA 的两阶段训练:预训练和微调。

LaMDA 预训练

在预训练阶段,谷歌首先从公共对话数据和其他公共网页文档中收集并创建了一个具有 1.56T 单词的数据集,是用于训练以往对话模型的单词量的近 40 倍。在将该数据集标记为 2.81T SentencePiece token 之后,谷歌使用 GSPMD 预训练模型,以预测句子中的所有下一个 token。预训练的 LaMDA 模型已被广泛应用于谷歌的自然语言处理研究中,包括程序合成、零样本学习、风格迁移等。

LaMDA 微调

在微调阶段,谷歌训练 LaMDA,执行混合生成任务以生成对给定上下文的自然语言响应,执行关于响应是否安全和高质量的分类任务,最终生成一个两种任务都能做的多任务模型。LaMDA 生成器被训练预测限制为两个作者之间来回对话的对话数据集上的下一个 token,LaMDA 分类器被训练预测使用注释数据在上下文中生成的响应的安全与质量(SSI)评级。

对话期间,LaMDA 生成器首先在给定当前多轮对话上下文时生成几个候选响应,然后 LaMDA 预测每个候选响应的 SSI 和安全分数。安全分数低的候选响应首先被过滤掉,剩下的候选响应根据 SSI 分数重新排名,并选择分数最高的作为最终响应。谷歌使用 LaMDA 分类器进一步过滤掉用于生成任务的训练数据,以增加高质量候选响应的密度。

LaMDA 生成一个候选响应并对其评分。


LaMDA 通过合理、特异和有趣的方式处理任意用户输入。

事实根基

虽然人们能够使用工具并参考已建立的知识库来检测事实,但很多语言模型仅利用内部模型参数来获取知识。为了提高 LaMDA 原始响应的根基性,谷歌收集并创建了人类与 LaMDA 之间对话的数据集,这些对话在适用的情况下使用检索查询和检索结果进行注释。然后,谷歌在这个数据集上微调了 LaMDA 的生成器和分类器,以学习与用户交互期间调用外部信息检索系统,并提升响应的根基性。虽然这一工作还处于非常早期的阶段,但谷歌看到了有希望的结果。

零样本域自适应:看起来非常真实的假装是珠穆朗玛峰的 LaMDA 对话示例。结果表明,对话主体「珠穆拉玛峰」提供了教育性和事实正确的响应。

评估

为了根据自己的关键度量来量化进展,谷歌收集来自预训练模型、微调模型、人类评估者(即人类生成的响应)对多轮双作者对话的响应,然后向不同的人类评估者问一系列问题,从而根据质量、安全性和根基性度量来评估这些响应。

谷歌观察到,LaMDA 在每个维度和所有模型大小情况下都显著优于预训练模型,合理性、特异性和趣味性等质量度量通常会随模型参数量提升,无论微调与否。安全性似乎无法仅从模型缩放中收益,但确实可以通过微调提升。随着模型大小的增加,根基性也提升,这或许是因为更大的模型具备更大的记住不常见知识的能力,但微调使模型可以访问外部知识源并有效地将记住知识的负载转移到外部知识源。微调还可以缩小与人类水平的质量差距,尽管该模型在安全性和根基性方面的性能依然低于人类。


在合理性、特异性、趣味性、安全性、根基性和信息性等方面比较预训练模型(PT)、微调模型(LaMDA)和人类评估者生成对话(Human)。


原文链接:https://ai.googleblog.com/

相关文章
|
5月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
2152 120
|
5月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
643 120
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
894 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
6月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
709 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
6月前
|
人工智能 IDE 开发工具
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
CodeGPT是一款基于AI的编程辅助插件,支持代码生成、优化、错误分析和单元测试,兼容多种大模型如Gemini 2.0和Qwen2.5 Coder。免费开放,适配PyCharm等IDE,助力开发者提升效率,新手友好,老手提效利器。(238字)
2954 1
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
1661 8
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1261 53
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
638 30

热门文章

最新文章