1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文

简介: 1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文

谷歌的 LaMDA 具有接近人类水平的对话质量。

语言模型可以完成不同任务,例如将一种语言翻译成另一种语言,将长文档总结为简短的摘要等。在众多任务中,开放域对话可能是最困难的任务之一,因为开放域对话需要模型覆盖不同的主题。在对话任务中,模型应该遵循负责任  AI(Responsible AI)实践,并避免做出没有外部信息源支持的事实陈述。

近日,超过  50 多位谷歌研究者参与撰写的论文《 LaMDA: Language Models for Dialog Applications  》介绍了语言模型 LaMDA 的最新进展。论文概括了他们如何在安全、可靠和高质量的对话应用程序方面取得进展。LaMDA  通过微调一系列专门用于对话的、基于 Transformer 的神经语言模型构建的,具有多达 137B 个参数,模型还可以利用外部知识源进行对话。

image.png


论文地址:https://arxiv.org/pdf/2201.08239.pdf

来自谷歌大脑的论文作者之一 Romal Thoppilan 表示:LaMDA 模型使用多达 137B 个参数进行训练,它展示了接近人类水平的对话质量以及在安全性和事实基础方面具有显着改进。

image.png

目标和度量

指导训练对话模型包括两个至关重要的因素:目标和度量。LaMDA 有三个主要目标——质量、安全和根基性(Groundedness)。

质量:谷歌将质量分解为三个维度,即合理性、特异性和趣味性 (Sensibleness, Specificity, Interestingness,SSI),由人类评估者进行评估。

  • 合理性是指模型是否产生在对话上下文中有意义的响应(例如,没有常识错误,没有荒谬的回应,以及与先前的回应没有矛盾);
  • 特异性是通过判断系统的响应是否特定于前面的对话上下文来衡量的,而不是适用于大多数上下文的通用回应;
  • 趣味性是衡量模型是否产生了富有洞察力、出乎意料或机智的回应,因此更有可能创造更好的对话。

安全:谷歌还在开发和部署负责任 AI(Responsible AI)方面取得了重大进展。其安全度量由一组说明性的安全目标组成,这些目标捕捉模型应在对话中展示的行为。这些目标试图限制模型的输出,以避免任何可能对用户造成伤害的意外结果,并避免加剧不公平的偏见。

根基性:当前这一代语言模型通常会生成看似合理但实际上与已知外部事实相矛盾的陈述。这激发了谷歌对  LaMDA 根基性的研究。不携带任何真实世界信息的随意回应都会影响信息性,但不会影响根基性。虽然在已知来源中建立 LaMDA  生成的响应本身并不能保证事实的准确性,但它允许用户或外部系统根据其来源的可靠性来判断响应的有效性。

LaMDA 预训练与微调

在定义了目标和度量之后,谷歌描述了 LaMDA 的两阶段训练:预训练和微调。

LaMDA 预训练

在预训练阶段,谷歌首先从公共对话数据和其他公共网页文档中收集并创建了一个具有  1.56T 单词的数据集,是用于训练以往对话模型的单词量的近 40 倍。在将该数据集标记为 2.81T SentencePiece token  之后,谷歌使用 GSPMD 预训练模型,以预测句子中的所有下一个 token。预训练的 LaMDA  模型已被广泛应用于谷歌的自然语言处理研究中,包括程序合成、零样本学习、风格迁移等。

LaMDA 微调

在微调阶段,谷歌训练   LaMDA,执行混合生成任务以生成对给定上下文的自然语言响应,执行关于响应是否安全和高质量的分类任务,最终生成一个两种任务都能做的多任务模型。LaMDA  生成器被训练预测限制为两个作者之间来回对话的对话数据集上的下一个 token,LaMDA  分类器被训练预测使用注释数据在上下文中生成的响应的安全与质量(SSI)评级。

对话期间,LaMDA  生成器首先在给定当前多轮对话上下文时生成几个候选响应,然后 LaMDA 预测每个候选响应的 SSI  和安全分数。安全分数低的候选响应首先被过滤掉,剩下的候选响应根据 SSI 分数重新排名,并选择分数最高的作为最终响应。谷歌使用 LaMDA  分类器进一步过滤掉用于生成任务的训练数据,以增加高质量候选响应的密度。

image.png

LaMDA 生成一个候选响应并对其评分。

image.png

LaMDA 通过合理、特异和有趣的方式处理任意用户输入。

事实根基

虽然人们能够使用工具并参考已建立的知识库来检测事实,但很多语言模型仅利用内部模型参数来获取知识。为了提高  LaMDA 原始响应的根基性,谷歌收集并创建了人类与 LaMDA  之间对话的数据集,这些对话在适用的情况下使用检索查询和检索结果进行注释。然后,谷歌在这个数据集上微调了 LaMDA  的生成器和分类器,以学习与用户交互期间调用外部信息检索系统,并提升响应的根基性。虽然这一工作还处于非常早期的阶段,但谷歌看到了有希望的结果。

image.png

零样本域自适应:看起来非常真实的假装是珠穆朗玛峰的 LaMDA 对话示例。结果表明,对话主体「珠穆拉玛峰」提供了教育性和事实正确的响应。

评估

为了根据自己的关键度量来量化进展,谷歌收集来自预训练模型、微调模型、人类评估者(即人类生成的响应)对多轮双作者对话的响应,然后向不同的人类评估者问一系列问题,从而根据质量、安全性和根基性度量来评估这些响应。

谷歌观察到,LaMDA   在每个维度和所有模型大小情况下都显著优于预训练模型,合理性、特异性和趣味性等质量度量通常会随模型参数量提升,无论微调与否。安全性似乎无法仅从模型缩放中收益,但确实可以通过微调提升。随着模型大小的增加,根基性也提升,这或许是因为更大的模型具备更大的记住不常见知识的能力,但微调使模型可以访问外部知识源并有效地将记住知识的负载转移到外部知识源。微调还可以缩小与人类水平的质量差距,尽管该模型在安全性和根基性方面的性能依然低于人类。

image.png

在合理性、特异性、趣味性、安全性、根基性和信息性等方面比较预训练模型(PT)、微调模型(LaMDA)和人类评估者生成对话(Human)。

相关文章
|
4月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
891 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
5月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
404 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
1361 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
5月前
|
人工智能 IDE 开发工具
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
CodeGPT是一款基于AI的编程辅助插件,支持代码生成、优化、错误分析和单元测试,兼容多种大模型如Gemini 2.0和Qwen2.5 Coder。免费开放,适配PyCharm等IDE,助力开发者提升效率,新手友好,老手提效利器。(238字)
2609 1
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
|
5月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
325 10
|
5月前
|
人工智能 算法 开发者
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
538 1
|
10月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
1350 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
10月前
|
人工智能 自然语言处理 测试技术
谷歌AI 多模态 Gemini 2.5 Pro的国内使用教程
在人工智能(AI)的星辰大海中,谷歌再次投下一枚重磅炸弹 💣!他们倾注心血打造的智慧结晶
4179 0
|
机器学习/深度学习 存储 人工智能
一周AI最火论文 | 给你的AI模型一张名片,谷歌发布MCT
一周AI最火论文 | 给你的AI模型一张名片,谷歌发布MCT
487 0