7 Papers & Radios | 无需注意力的预训练;被GPT带飞的In-Context Learning

简介: 7 Papers & Radios | 无需注意力的预训练;被GPT带飞的In-Context Learning

本周重要论文包括当预训练不需要注意力时,扩展到 4096 个 token 也不成问题;被 GPT 带飞的 In-Context Learning 背后是模型在秘密执行梯度下降。


目录:


ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis

Pretraining Without Attention

One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations

SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions

Ab Initio Calculation of Real Solids via Neural Network Ansatz

Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers

Experimental Indications of Non-classical Brain Functions

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis


作者:Yuan Li等

论文地址:https://arxiv.org/pdf/2211.13226.pdf


摘要:本文介绍了一种将物理模拟与场景 NeRF 模型相融合的全新方法,生成这些场景中物理现象的逼真影片。就具体效果而言,该方法能够逼真地模拟出气候变化可能产生的影响 —— 在一场小范围的洪水爆发后,操场会变成什么样子?大洪水后呢?暴雪后呢?


推荐:一秒起雾、入冬、发洪水,新 NeRF 模型渲染出逼真物理大片。


论文 2:Pretraining Without Attention


作者:Junxiong Wang 等

论文地址:https://arxiv.org/pdf/2212.10544.pdf


摘要:本文提出了双向门控 SSM(BiGS)模型,结合基于状态空间模型(SSM)的 Routing 层和基于乘法门的模型架构,在不使用注意力的情况下能够复制 BERT 预训练结果,并可扩展到 4096 个 token 的长程预训练,不需要近似。


推荐:预训练无需注意力,扩展到 4096 个 token 不成问题,与 BERT 相当。


论文 3:One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations


作者:Yiming Zhu 等

论文地址:https://arxiv.org/pdf/2210.07883.pdf


摘要:最近用文本来引导图像编辑取得了非常大的进展以及关注度,特别是基于去噪扩散模型如 StableDiffusion 或者 DALLE 等。但基于 GAN 的文本 - 图像编辑依旧有一些问题等待解决,例如经典的 StyleCILP 中针对每一个文本必须要训练一个模型,这种单文本对单模型的方式在实际应用中是不方便的。


本文提出 FFCLIP 并解决了这个问题,针对灵活的不同文本输入,FFCLIP 只需要一个模型就能够对图片进行相应的编辑,无需针对每个文本重新训练模型,并且在多个数据集上都取得了非常不错的效果。本文已被 NeurIPS 2022 接收。


推荐:文本图片编辑新范式,单个模型实现多文本引导图像编辑。


论文 4:SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions


作者:Yizhong Wang 等

论文地址:https://arxiv.org/pdf/2212.10560v1.pdf


摘要:华盛顿大学等机构近期联合发表了一篇论文,提出的新框架 SELF-INSTRUCT 通过引导模型自己的生成过程,提高了预训练语言模型的指令遵循能力。SELF-INSTRUCT 是一种半自动化过程,使用来自模型本身的指令信号对预训练的 LM 进行指令调整。


推荐:无需人工标注,自生成指令框架打破 ChatGPT 等 LLM 的成本瓶颈。


论文 5:Ab Initio Calculation of Real Solids via Neural Network Ansatz


作者:Xiang Li 等

论文地址:https://www.nature.com/articles/s41467-022-35627-1


摘要:机器学习能够处理海量数据,解决复杂场景下的科学难题,带领科学探索抵达过去无法触及的新领域。比如 DeepMind 用人工智能软件 AlphaFold 对科学界已知的几乎所有蛋白质结构进行了高度准确的预测;Christian Lagemann 提出的基于深度学习的粒子图像测速 (PIV) 方法一改原本的纯手动设置参数,大大提升模型的应用范围,对汽车、航空航天和生物医学工程等多个领域的研究具有至关重要的意义。


最近,字节跳动 AI Lab Research 团队和北京大学物理学院陈基课题组的工作《 Ab initio calculation of real solids via neural network ansatz》 给出了研究凝聚态物理的新思路,该工作提出了业内首个适用于固体系统的神经网络波函数,实现了固体的第一性原理计算,并将计算结果推向了热力学极限。其有力地证明了神经网络是研究固体物理的高效工具,也预示着深度学习技术将在凝聚态物理中发挥越来越重要的作用。相关研究成果于 2022 年 12 月 22 日发表于国际顶级刊物 Nature Communication 杂志上。


推荐:业界首个适用于固体系统的神经网络波函数,登上 Nature 子刊。


论文 6:Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers


作者:Damai Dai 等

论文地址:https://arxiv.org/pdf/2212.10559v2.pdf


摘要:In-Context Learning(ICL)在大型预训练语言模型上取得了巨大的成功,但其工作机制仍然是一个悬而未决的问题。本文中,来自北大、清华、微软的研究者将 ICL 理解为一种隐式微调,并提供了经验性证据来证明 ICL 和显式微调在多个层面上表现相似。


推荐:被 GPT 带飞的 In-Context Learning 为什么起作用?模型在秘密执行梯度下降。


论文 7:Experimental Indications of Non-classical Brain Functions


作者:Christian Matthias Kerskens 等

论文地址:https://iopscience.iop.org/article/10.1088/2399-6528/ac94be


摘要:几十年来,科学家们一直在探索人脑的计算和思考机制。但人脑的构成太过复杂,包含几百亿个神经元,相当于上万亿块芯片,我们很难一探究竟。因对黑洞的研究贡献而获得诺贝尔物理学奖的罗杰・彭罗斯曾大胆地提出「量子意识」观点,即人脑本身就是量子结构,或者说是量子计算机。但这一观点一直备受质疑。


近期都柏林圣三一大学的一项研究表明我们的大脑执行的是量子计算,该研究认为人脑中存在与意识相关的大脑功能介导的纠缠。如果这些大脑功能必须以非经典的方式运作,那么这意味着意识是非经典的,即大脑的认知过程涉及量子计算。


推荐:大脑的思考是量子计算,这一猜测有了新证据。

相关文章
|
7月前
|
人工智能 JSON 文字识别
Azure Machine Learning - 如何使用 GPT-4 Turbo with Vision
Azure Machine Learning - 如何使用 GPT-4 Turbo with Vision
199 0
|
5月前
|
自然语言处理 PyTorch API
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
|
7月前
|
JSON 人工智能 API
Azure Machine Learning - Azure OpenAI GPT 3.5 Turbo 微调教程
Azure Machine Learning - Azure OpenAI GPT 3.5 Turbo 微调教程
134 0
|
机器学习/深度学习 缓存 移动开发
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
|
机器学习/深度学习 缓存 人工智能
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器
7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器
152 0
|
传感器 机器学习/深度学习 人工智能
7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型
7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型
293 0
|
机器学习/深度学习 自然语言处理 前端开发
7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍
7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍
181 0
|
机器学习/深度学习 存储 人工智能
7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型
7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型
163 0

热门文章

最新文章