本周重要论文包括英伟达提出的首个大模型驱动、可以终身学习的游戏智能体VOYAGER,以及马腾宇团队新出的大模型预训练优化器。
目录:
- VOYAGER: An Open-Ended Embodied Agent with Large Language Models
- Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training
- RWKV: Reinventing RNNs for the Transformer Era
- CoDi: Any-to-Any Generation via Composable Diffusion
- LIMA: Less Is More for Alignment
- WebCPM: Interactive Web Search for Chinese Long-form Question Answering
- A Comprehensive Survey on Segment Anything Model for Vision and Beyond
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:VOYAGER: An Open-Ended Embodied Agent with Large Language Models
- 作者:Guanzhi Wang、 Yuqi Xie 等
- 论文地址:https://arxiv.org/pdf/2305.16291.pdf
摘要:通用 AI 大模型 GPT-4 进游戏了,进的是开放世界,而且玩出了高水平。近日,英伟达发布的 VOYAGER 给 AI 圈内带来了一点小小的震撼。
VOYAGER 是第一个大模型驱动,可以终身学习的游戏智能体,著名 AI 学者,刚回 OpenAI 的 Andrej Karpathy 看论文了之后表示:还记得在大约 2016 年的时候,在像《我的世界》这样的环境里开发 AI 代理是多么绝望的一件事吗?
推荐:英伟达把 GPT-4 塞进我的世界,打游戏快 15 倍:AI 大佬沉默了
论文 2:Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training
- 作者:Hong Liu Zhiyuan Li 等
- 论文地址:https://arxiv.org/pdf/2305.14342.pdf
摘要:大语言模型(LLM)的能力随着其规模的增长而取得了显著的进展。然而,由于庞大的数据集和模型规模,预训练 LLM 非常耗时,需要进行数十万次的模型参数更新。例如,PaLM 在 6144 个 TPU 上进行了为期两个月的训练,总共耗费大约 1000 万美元。因此,提高预训练效率是扩展 LLM 规模的一个主要瓶颈。
本文来自斯坦福大学的研究者撰文提出了 Sophia(Second-order Clipped Stochastic Optimization)轻量级二阶优化器,旨在通过更快的优化器提高预训练效率,从而减少达到相同预训练损失所需的时间和成本,或者在相同预算下实现更好的预训练损失。
推荐:马腾宇团队新出大模型预训练优化器,比 Adam 快 2 倍,成本减半
论文 3:RWKV: Reinventing RNNs for the Transformer Era
- 作者:Alon Albalak、 Samuel Arcadinho 等
- 论文地址:https://arxiv.org/pdf/2305.13048.pdf
摘要:Transformer 模型在几乎所有自然语言处理(NLP)任务中都带来了革命,但其在序列长度上的内存和计算复杂性呈二次方增长。相比之下,循环神经网络(RNNs)在内存和计算需求上呈线性增长,但由于并行化和可扩展性的限制,很难达到与 Transformer 相同的性能水平。
本文提出了一种新颖的模型架构,Receptance Weighted Key Value(RWKV),将 Transformer 的高效可并行训练与 RNN 的高效推理相结合。实验证明,RWKV 的性能与相同规模的 Transformer 相当。
推荐:在 Transformer 时代重塑 RNN,RWKV 将非 Transformer 架构扩展到数百亿参数
论文 4:CoDi: Any-to-Any Generation via Composable Diffusion
- 作者:Zineng Tang、Ziyi Yang 等
- 论文地址:https://codi-gen.github.io/
摘要:给定一句话,然后让你想象这句话在现实场景中的样子,对于人类来说这项任务过于简单,比如「一辆进站的火车」,人类可以进行天马行空的想象火车进站时的样子,但对模型来说,这可不是一件容易的事,涉及模态的转换,模型需要理解这句话的含义,然后根据这句话生成应景的视频、音频,难度还是相当大的。
现在,北卡罗来纳大学教堂山分校、微软提出的可组合扩散(Composable Diffusion,CoDi)模型很好的解决了这个问题。与现有的生成式人工智能系统不同,CoDi 可以并行生成多种模态,其输入不限于文本或图像等模态。
推荐:可组合扩散模型主打 Any-to-Any 生成:文本、图像、视频、音频全都行
论文 5:LIMA: Less Is More for Alignment
- 作者:Chunting Zhou、Pengfei Liu 等
- 论文地址:https://arxiv.org/abs/2305.11206
摘要:使用 RLHF 方法,大型语言模型可与人类偏好保持对齐,遵循人类意图,最小化无益、失真或偏见的输出。但 RLHF 方法依赖于大量的人工标注和评估,因此成本非常高昂。
最近,来自 Meta AI 等机构的研究者在一项研究中指出:在对齐方面,少即是多。该研究使用了一个 65B 参数的 LLaMa 模型(该模型称为 LIMA)在 1000 个精选样本上进行有监督学习,在完全没使用 RLHF 方法的情况下,LIMA 表现出非常强大的性能,并且能够很好地泛化到训练数据以外的任务上。在人类评估结果中,LIMA 甚至可与 GPT-4、Bard、DaVinci003 相媲美。
推荐:没有 RLHF,一样媲美 GPT-4、Bard,Meta 发布 650 亿参数语言模型 LIMA
论文 6:WebCPM: Interactive Web Search for Chinese Long-form Question Answering
- 作者:Yujia Qin、Zihan Cai 等
- 论文地址:https://arxiv.org/abs/2305.06849
摘要:2021 年 12 月 WebGPT 的横空出世标志了基于网页搜索的问答新范式的诞生,在此之后,New Bing 首先将网页搜索功能整合发布,随后 OpenAI 也发布了支持联网的插件 ChatGPT Plugins。大模型在联网功能的加持下,回答问题的实时性和准确性都得到了飞跃式增强。
近期,来自清华、人大、腾讯的研究人员共同发布了中文领域首个基于交互式网页搜索的问答开源模型框架 WebCPM,相关工作录用于自然语言处理顶级会议 ACL 2023。WebCPM 搜索交互界面如下。
推荐:首个基于交互式网页搜索的中文问答开源框架,清华、人大、腾讯联合发布 WebCPM
论文 7:A Comprehensive Survey on Segment Anything Model for Vision and Beyond
- 作者:Chunhui Zhang、 Li Liu 等
- 论文地址:https://arxiv.org/pdf/2305.08196.pdf
摘要:作为首个全面介绍基于 SAM 基础模型进展的研究,本文聚焦于 SAM 在各种任务和数据类型上的应用,并讨论了其历史发展、近期进展,以及对广泛应用的深远影响。SAM 架构如下所示,主要包含三个部分:图像编码器;提示编码器;以及掩码解码器。
推荐:分割一切模型 SAM 首篇全面综述:28 页、200 + 篇参考文献
ArXiv Weekly Radiostation