本周重要论文包括谷歌研究院和加州大学伯克利分校在文本到图像模型中引入人类反馈、以及微软最新的多模态大模型等。
目录:
- Language Is Not All You Need: Aligning Perception with Language Models
- Learning Harmonic Molecular Representations on Riemannian Manifold
- Single-cell biological network inference using a heterogeneous graph transformer
- Towards Stable Test-time Adaptation in Dynamic Wild World
- A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
- Aligning Text-to-Image Models using Human Feedback
- Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:Language Is Not All You Need: Aligning Perception with Language Models
- 作者:Shaohan Huang 等
- 论文地址:https://arxiv.org/pdf/2302.14045.pdf
摘要:微软团队介绍了一个多模态大型语言模型(MLLM)——KOSMOS-1,它可以感知一般模态、遵循指令(零样本学习)以及在上下文中学习(少样本学习)。研究目标是使感知与 LLM 保持一致,模型能够看到(see)和说话(talk)。研究者按照 METALM 的方式从头开始训练 KOSMOS-1。
推荐:微软多模态 ChatGPT 来了?16 亿参数搞定看图答题、智商测验等任务。
论文 2:Learning Harmonic Molecular Representations on Riemannian Manifold
- 作者:Yiqun Wang 等
- 论文地址:https://openreview.net/pdf?id=ySCL-NG_I3
摘要:分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛选出较为稳定的结构。这类策略效率较低,难以应用于高通量的蛋白质对接任务。
本文介绍的基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较,进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 (rigid protein docking) 。实验表明,基于 HMR 的分子对接模型比当前深度学习 SOTA [1] 有更高的准确性,并且较传统分子对接方法提速 100 倍以上。
推荐:ICLR 2023 | 初探 AI 拼图模型预测蛋白质复合物结构。
论文 3:Single-cell biological network inference using a heterogeneous graph transformer
- 作者:Anjun Ma 等
- 论文地址:https://www.nature.com/articles/s41467-023-36559-0#Sec9
摘要:单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态,以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。
山东大学等多机构研究团队开发了基于深度学习的单细胞数据多组学分析平台 ——DeepMAPS,用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模,并使用多头图(multi-head graph)Transformer 以稳健的方式学习局部和全局上下文中的细胞和基因之间的关系。
推荐:山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理。
论文 4:Towards Stable Test-time Adaptation in Dynamic Wild World
- 作者:Shuaicheng Niu 等
- 论文地址:https://openreview.net/pdf?id=g2YraF75Tj
摘要:测试时自适应(Test-Time Adaptation,TTA)方法在测试阶段指导模型进行快速无监督 / 自监督学习,是当前用于提升深度模型分布外泛化能力的一种强有效工具。然而在动态开放场景中,稳定性不足仍是现有 TTA 方法的一大短板,严重阻碍了其实际部署。
为此,来自华南理工大学、腾讯 AI Lab 及新加坡国立大学的研究团队,从统一的角度对现有 TTA 方法在动态场景下不稳定原因进行分析,指出依赖于 Batch 的归一化层是导致不稳定的关键原因之一,另外测试数据流中某些具有噪声 / 大规模梯度的样本容易将模型优化至退化的平凡解。基于此进一步提出锐度敏感且可靠的测试时熵最小化方法 SAR,实现动态开放场景下稳定、高效的测试时模型在线迁移泛化。本工作已入选 ICLR 2023 Oral。
如下为 Test-Time Adaptation 示意图及其与现有方法特点对比。
推荐:Batch Norm 层等暴露 TTA 短板,开放环境下解决方案来了。
论文 5:A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
- 作者:Ce Zhou 等
- 论文地址:https://arxiv.org/pdf/2302.09419.pdf
摘要:在最近的一篇综述文章中,来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文,主要聚焦文本、图像和图学习领域的预训练基础模型,值得一读。杜克大学教授、加拿大工程院院士裴健,伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶,Salesforce AI Research 副总裁熊蔡明都是该论文作者之一。
推荐:从 BERT 到 ChatGPT,百页综述梳理预训练大模型演变史。
论文 6:Aligning Text-to-Image Models using Human Feedback
- 作者:Kimin Lee 等
- 论文地址:https://arxiv.org/pdf/2302.12192v1.pdf
摘要:语言建模领域,从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈,首先学习一个旨在反映人类在任务中所关心内容的奖励函数,通过一种强化学习算法(如近端策略优化 PPO)使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习(RLHF)已经成功地将大规模语言模型(例如 GPT-3)与复杂的人类质量评估结合起来。
近日,受 RLHF 在语言领域的成功,谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法。
推荐:学习 ChatGPT,AI 绘画引入人类反馈会怎样?。
论文 7:Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation
- 作者:Ryota Kobayashi 等
- 论文地址:https://ieeexplore.ieee.org/document/10016717
摘要:在制造机器人的过程中,灵活、适当地组合各种性能是一项挑战任务,因为这些性能有时是相互矛盾的。比方制造一个既灵活又强壮的机器人并非易事,但也不是不可能。最近一项研究中,东京工业大学制造出了这样一种机器人,它具有高度灵活性,同时仍保持其「肌肉」内的高度张力,使其躯体能进行充分的扭转,从而完成困难的任务。研究结果发表在 1 月 13 日的《IEEE 机器人和自动化通讯》。
推荐:拧瓶盖螺丝,高度灵活的柔性机器人为你开可口可乐。