7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器
本周重要论文包括英伟达提出的首个大模型驱动、可以终身学习的游戏智能体VOYAGER,以及马腾宇团队新出的大模型预训练优化器


目录:

  1. VOYAGER: An Open-Ended Embodied Agent with Large Language Models
  2. Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training
  3. RWKV: Reinventing RNNs for the Transformer Era
  4. CoDi: Any-to-Any Generation via Composable Diffusion
  5. LIMA: Less Is More for Alignment
  6. WebCPM: Interactive Web Search for Chinese Long-form Question Answering
  7. A Comprehensive Survey on Segment Anything Model for Vision and Beyond
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:VOYAGER: An Open-Ended Embodied Agent with Large Language Models


摘要:通用 AI 大模型 GPT-4 进游戏了,进的是开放世界,而且玩出了高水平。近日,英伟达发布的 VOYAGER 给 AI 圈内带来了一点小小的震撼。

VOYAGER 是第一个大模型驱动,可以终身学习的游戏智能体,著名 AI 学者,刚回 OpenAI 的 Andrej Karpathy 看论文了之后表示:还记得在大约 2016 年的时候,在像《我的世界》这样的环境里开发 AI 代理是多么绝望的一件事吗?


推荐:英伟达把 GPT-4 塞进我的世界,打游戏快 15 倍:AI 大佬沉默了

论文 2:Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training


摘要:大语言模型(LLM)的能力随着其规模的增长而取得了显著的进展。然而,由于庞大的数据集和模型规模,预训练 LLM 非常耗时,需要进行数十万次的模型参数更新。例如,PaLM 在 6144 个 TPU 上进行了为期两个月的训练,总共耗费大约 1000 万美元。因此,提高预训练效率是扩展 LLM 规模的一个主要瓶颈。

本文来自斯坦福大学的研究者撰文提出了 Sophia(Second-order Clipped Stochastic Optimization)轻量级二阶优化器,旨在通过更快的优化器提高预训练效率,从而减少达到相同预训练损失所需的时间和成本,或者在相同预算下实现更好的预训练损失。


推荐:马腾宇团队新出大模型预训练优化器,比 Adam 快 2 倍,成本减半

论文 3:RWKV: Reinventing RNNs for the Transformer Era


摘要:Transformer 模型在几乎所有自然语言处理(NLP)任务中都带来了革命,但其在序列长度上的内存和计算复杂性呈二次方增长。相比之下,循环神经网络(RNNs)在内存和计算需求上呈线性增长,但由于并行化和可扩展性的限制,很难达到与 Transformer 相同的性能水平。

本文提出了一种新颖的模型架构,Receptance Weighted Key Value(RWKV),将 Transformer 的高效可并行训练与 RNN 的高效推理相结合。实验证明,RWKV 的性能与相同规模的 Transformer 相当。


推荐:在 Transformer 时代重塑 RNN,RWKV 将非 Transformer 架构扩展到数百亿参数

论文 4:CoDi: Any-to-Any Generation via Composable Diffusion



摘要:给定一句话,然后让你想象这句话在现实场景中的样子,对于人类来说这项任务过于简单,比如「一辆进站的火车」,人类可以进行天马行空的想象火车进站时的样子,但对模型来说,这可不是一件容易的事,涉及模态的转换,模型需要理解这句话的含义,然后根据这句话生成应景的视频、音频,难度还是相当大的。

现在,北卡罗来纳大学教堂山分校、微软提出的可组合扩散(Composable Diffusion,CoDi)模型很好的解决了这个问题。与现有的生成式人工智能系统不同,CoDi 可以并行生成多种模态,其输入不限于文本或图像等模态。


推荐:可组合扩散模型主打 Any-to-Any 生成:文本、图像、视频、音频全都行

论文 5:LIMA: Less Is More for Alignment


摘要:使用 RLHF 方法,大型语言模型可与人类偏好保持对齐,遵循人类意图,最小化无益、失真或偏见的输出。但 RLHF 方法依赖于大量的人工标注和评估,因此成本非常高昂。

最近,来自 Meta AI 等机构的研究者在一项研究中指出:在对齐方面,少即是多。该研究使用了一个 65B 参数的 LLaMa 模型(该模型称为 LIMA)在 1000 个精选样本上进行有监督学习,在完全没使用 RLHF 方法的情况下,LIMA 表现出非常强大的性能,并且能够很好地泛化到训练数据以外的任务上。在人类评估结果中,LIMA 甚至可与 GPT-4、Bard、DaVinci003 相媲美。


推荐:没有 RLHF,一样媲美 GPT-4、Bard,Meta 发布 650 亿参数语言模型 LIMA

论文 6:WebCPM: Interactive Web Search for Chinese Long-form Question Answering


摘要:2021 年 12 月 WebGPT 的横空出世标志了基于网页搜索的问答新范式的诞生,在此之后,New Bing 首先将网页搜索功能整合发布,随后 OpenAI 也发布了支持联网的插件 ChatGPT Plugins。大模型在联网功能的加持下,回答问题的实时性和准确性都得到了飞跃式增强。

近期,来自清华、人大、腾讯的研究人员共同发布了中文领域首个基于交互式网页搜索的问答开源模型框架 WebCPM,相关工作录用于自然语言处理顶级会议 ACL 2023。WebCPM 搜索交互界面如下。


推荐:首个基于交互式网页搜索的中文问答开源框架,清华、人大、腾讯联合发布 WebCPM

论文 7:A Comprehensive Survey on Segment Anything Model for Vision and Beyond


摘要:作为首个全面介绍基于 SAM 基础模型进展的研究,本文聚焦于 SAM 在各种任务和数据类型上的应用,并讨论了其历史发展、近期进展,以及对广泛应用的深远影响。SAM 架构如下所示,主要包含三个部分:图像编码器;提示编码器;以及掩码解码器。


推荐:分割一切模型 SAM 首篇全面综述:28 页、200 + 篇参考文献

ArXiv Weekly Radiostation

相关文章
|
6月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
92 1
|
3月前
|
存储 人工智能 异构计算
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
33 0
|
3月前
|
JSON C# 数据格式
gpt-3.5-turbo与星火认知大模型v3.5回答对比
gpt-3.5-turbo与星火认知大模型v3.5回答对比
38 0
|
15天前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
128 6
|
30天前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
43 6
|
2月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
52 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
1月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
53 0
|
3月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
45 1
|
3月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
118 2
|
4月前
|
人工智能 数据挖掘 机器人
同样是人工智能 客户在哪儿AI和GPT等大模型有什么不同
客户在哪儿AI生产的是企业全历史行为数据,同时还针对ToB企业,提供基于企业全历史行为数据的数据分析服务。
下一篇
无影云桌面