7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?

简介: 7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?


本周重要论文包括谷歌研究院和加州大学伯克利分校在文本到图像模型中引入人类反馈、以及微软最新的多模态大模型等


目录:

  1. Language Is Not All You Need: Aligning Perception with Language Models
  2. Learning Harmonic Molecular Representations on Riemannian Manifold
  3. Single-cell biological network inference using a heterogeneous graph transformer
  4. Towards Stable Test-time Adaptation in Dynamic Wild World
  5. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
  6. Aligning Text-to-Image Models using Human Feedback
  7. Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Language Is Not All You Need: Aligning Perception with Language Models


摘要:微软团队介绍了一个多模态大型语言模型(MLLM)——KOSMOS-1,它可以感知一般模态、遵循指令(零样本学习)以及在上下文中学习(少样本学习)。研究目标是使感知与 LLM 保持一致,模型能够看到(see)和说话(talk)。研究者按照 METALM 的方式从头开始训练 KOSMOS-1。

推荐:微软多模态 ChatGPT 来了?16 亿参数搞定看图答题、智商测验等任务。

论文 2:Learning Harmonic Molecular Representations on Riemannian Manifold


摘要:分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛选出较为稳定的结构。这类策略效率较低,难以应用于高通量的蛋白质对接任务。

本文介绍的基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较,进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 (rigid protein docking) 。实验表明,基于 HMR 的分子对接模型比当前深度学习 SOTA [1] 有更高的准确性,并且较传统分子对接方法提速 100 倍以上。

推荐:ICLR 2023 | 初探 AI 拼图模型预测蛋白质复合物结构。

论文 3:Single-cell biological network inference using a heterogeneous graph transformer

摘要:单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态,以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。

山东大学等多机构研究团队开发了基于深度学习的单细胞数据多组学分析平台 ——DeepMAPS,用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模,并使用多头图(multi-head graph)Transformer 以稳健的方式学习局部和全局上下文中的细胞和基因之间的关系。

推荐:山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理。

论文 4:Towards Stable Test-time Adaptation in Dynamic Wild World


摘要:测试时自适应(Test-Time Adaptation,TTA)方法在测试阶段指导模型进行快速无监督 / 自监督学习,是当前用于提升深度模型分布外泛化能力的一种强有效工具。然而在动态开放场景中,稳定性不足仍是现有 TTA 方法的一大短板,严重阻碍了其实际部署。

为此,来自华南理工大学、腾讯 AI Lab 及新加坡国立大学的研究团队,从统一的角度对现有 TTA 方法在动态场景下不稳定原因进行分析,指出依赖于 Batch 的归一化层是导致不稳定的关键原因之一,另外测试数据流中某些具有噪声 / 大规模梯度的样本容易将模型优化至退化的平凡解。基于此进一步提出锐度敏感且可靠的测试时熵最小化方法 SAR,实现动态开放场景下稳定、高效的测试时模型在线迁移泛化。本工作已入选 ICLR 2023 Oral。

如下为 Test-Time Adaptation 示意图及其与现有方法特点对比。

推荐:Batch Norm 层等暴露 TTA 短板,开放环境下解决方案来了。

论文 5:A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT


摘要:在最近的一篇综述文章中,来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文,主要聚焦文本、图像和图学习领域的预训练基础模型,值得一读。杜克大学教授、加拿大工程院院士裴健,伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶,Salesforce AI Research 副总裁熊蔡明都是该论文作者之一。

推荐:从 BERT 到 ChatGPT,百页综述梳理预训练大模型演变史。

论文 6:Aligning Text-to-Image Models using Human Feedback


摘要:语言建模领域,从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈,首先学习一个旨在反映人类在任务中所关心内容的奖励函数,通过一种强化学习算法(如近端策略优化 PPO)使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习(RLHF)已经成功地将大规模语言模型(例如 GPT-3)与复杂的人类质量评估结合起来。

近日,受 RLHF 在语言领域的成功,谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法

推荐:学习 ChatGPT,AI 绘画引入人类反馈会怎样?。

论文 7:Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation


摘要:在制造机器人的过程中,灵活、适当地组合各种性能是一项挑战任务,因为这些性能有时是相互矛盾的。比方制造一个既灵活又强壮的机器人并非易事,但也不是不可能。最近一项研究中,东京工业大学制造出了这样一种机器人,它具有高度灵活性,同时仍保持其「肌肉」内的高度张力,使其躯体能进行充分的扭转,从而完成困难的任务。研究结果发表在 1 月 13 日的《IEEE 机器人和自动化通讯》。

推荐:拧瓶盖螺丝,高度灵活的柔性机器人为你开可口可乐。

相关文章
|
1月前
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
37226 19
|
4天前
|
存储 弹性计算 人工智能
来自通义万相的创意加速器:AI 绘画创作
【7月更文挑战第11天】来自通义万相的创意加速器:AI 绘画创作
|
1月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
25天前
|
人工智能 自然语言处理 Java
Spring AI是一个开源的多模态AI模型平台
Spring AI是一个开源的多模态AI模型平台
216 2
|
29天前
|
人工智能 iOS开发 UED
详解苹果和微软的AI集成策略
详解苹果和微软的AI集成策略
|
29天前
|
人工智能 机器人 API
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
|
29天前
|
人工智能 安全
微软发布财务Copilot 旨在用AI来彻底改变电子表格
微软发布财务Copilot 旨在用AI来彻底改变电子表格
|
29天前
|
人工智能 自然语言处理 数据可视化
西门子与微软就跨行业AI采用展开合作
西门子与微软就跨行业AI采用展开合作
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
好书推荐丨AI时代Python量化交易实战:ChatGPT让量化交易插上翅膀
好书推荐丨AI时代Python量化交易实战:ChatGPT让量化交易插上翅膀
32 2
|
1月前
|
人工智能 算法
AIGC创作活动 | 智"绘"AI,使用PAI创造风格百变绘画助手
使用阿里云人工智能平台PAIx Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理,实现文本驱动的图像编辑功能单卡即可完成AIGC图片风格变化、背景变化和主体变化等功能。让我们一同开启这场旅程,为您的图像编辑添上无限可能性的翅膀吧。

热门文章

最新文章