7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?

简介: 7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?


本周重要论文包括谷歌研究院和加州大学伯克利分校在文本到图像模型中引入人类反馈、以及微软最新的多模态大模型等


目录:

  1. Language Is Not All You Need: Aligning Perception with Language Models
  2. Learning Harmonic Molecular Representations on Riemannian Manifold
  3. Single-cell biological network inference using a heterogeneous graph transformer
  4. Towards Stable Test-time Adaptation in Dynamic Wild World
  5. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
  6. Aligning Text-to-Image Models using Human Feedback
  7. Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Language Is Not All You Need: Aligning Perception with Language Models


摘要:微软团队介绍了一个多模态大型语言模型(MLLM)——KOSMOS-1,它可以感知一般模态、遵循指令(零样本学习)以及在上下文中学习(少样本学习)。研究目标是使感知与 LLM 保持一致,模型能够看到(see)和说话(talk)。研究者按照 METALM 的方式从头开始训练 KOSMOS-1。

推荐:微软多模态 ChatGPT 来了?16 亿参数搞定看图答题、智商测验等任务。

论文 2:Learning Harmonic Molecular Representations on Riemannian Manifold


摘要:分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛选出较为稳定的结构。这类策略效率较低,难以应用于高通量的蛋白质对接任务。

本文介绍的基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较,进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 (rigid protein docking) 。实验表明,基于 HMR 的分子对接模型比当前深度学习 SOTA [1] 有更高的准确性,并且较传统分子对接方法提速 100 倍以上。

推荐:ICLR 2023 | 初探 AI 拼图模型预测蛋白质复合物结构。

论文 3:Single-cell biological network inference using a heterogeneous graph transformer

摘要:单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态,以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。

山东大学等多机构研究团队开发了基于深度学习的单细胞数据多组学分析平台 ——DeepMAPS,用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模,并使用多头图(multi-head graph)Transformer 以稳健的方式学习局部和全局上下文中的细胞和基因之间的关系。

推荐:山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理。

论文 4:Towards Stable Test-time Adaptation in Dynamic Wild World


摘要:测试时自适应(Test-Time Adaptation,TTA)方法在测试阶段指导模型进行快速无监督 / 自监督学习,是当前用于提升深度模型分布外泛化能力的一种强有效工具。然而在动态开放场景中,稳定性不足仍是现有 TTA 方法的一大短板,严重阻碍了其实际部署。

为此,来自华南理工大学、腾讯 AI Lab 及新加坡国立大学的研究团队,从统一的角度对现有 TTA 方法在动态场景下不稳定原因进行分析,指出依赖于 Batch 的归一化层是导致不稳定的关键原因之一,另外测试数据流中某些具有噪声 / 大规模梯度的样本容易将模型优化至退化的平凡解。基于此进一步提出锐度敏感且可靠的测试时熵最小化方法 SAR,实现动态开放场景下稳定、高效的测试时模型在线迁移泛化。本工作已入选 ICLR 2023 Oral。

如下为 Test-Time Adaptation 示意图及其与现有方法特点对比。

推荐:Batch Norm 层等暴露 TTA 短板,开放环境下解决方案来了。

论文 5:A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT


摘要:在最近的一篇综述文章中,来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文,主要聚焦文本、图像和图学习领域的预训练基础模型,值得一读。杜克大学教授、加拿大工程院院士裴健,伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶,Salesforce AI Research 副总裁熊蔡明都是该论文作者之一。

推荐:从 BERT 到 ChatGPT,百页综述梳理预训练大模型演变史。

论文 6:Aligning Text-to-Image Models using Human Feedback


摘要:语言建模领域,从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈,首先学习一个旨在反映人类在任务中所关心内容的奖励函数,通过一种强化学习算法(如近端策略优化 PPO)使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习(RLHF)已经成功地将大规模语言模型(例如 GPT-3)与复杂的人类质量评估结合起来。

近日,受 RLHF 在语言领域的成功,谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法

推荐:学习 ChatGPT,AI 绘画引入人类反馈会怎样?。

论文 7:Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation


摘要:在制造机器人的过程中,灵活、适当地组合各种性能是一项挑战任务,因为这些性能有时是相互矛盾的。比方制造一个既灵活又强壮的机器人并非易事,但也不是不可能。最近一项研究中,东京工业大学制造出了这样一种机器人,它具有高度灵活性,同时仍保持其「肌肉」内的高度张力,使其躯体能进行充分的扭转,从而完成困难的任务。研究结果发表在 1 月 13 日的《IEEE 机器人和自动化通讯》。

推荐:拧瓶盖螺丝,高度灵活的柔性机器人为你开可口可乐。

相关文章
|
5月前
|
机器学习/深度学习 数据采集 人工智能
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
715 9
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
494 37
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
|
11月前
|
人工智能 自然语言处理 监控
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。
1290 3
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
|
5月前
|
数据采集 人工智能 程序员
PHP 程序员如何为 AI 浏览器(如 ChatGPT Atlas)优化网站
OpenAI推出ChatGPT Atlas,标志AI浏览器新方向。虽未颠覆现有格局,但为开发者带来新机遇。PHP建站者需关注AI爬虫抓取特性,优化技术结构(如SSR、Schema标记)、提升内容可读性与语义清晰度,并考虑未来agent调用能力。通过robots.txt授权、结构化数据、内容集群与性能优化,提升网站在AI搜索中的可见性与引用机会,提前布局AI驱动的流量新格局。
262 8
|
5月前
|
人工智能 编解码 芯片
【AI绘画】你有多久没有打开SD了?
曾几何时,Stable Diffusion的复杂参数令人崩溃,如今即梦、可灵等AI工具已让生成图片变得轻而易举。哩布哩布发布2.0升级公告,看似迈向更易用的未来,却也悄然为那个钻研模型、拼接工作流的“拓荒时代”奏响终章。技术迭代飞快,但那份对创造的热爱与探索精神,永不褪色。
849 9
|
11月前
|
机器学习/深度学习 存储 人工智能
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
Qlib是微软亚洲研究院推出的开源AI量化投资平台,提供从数据处理、模型训练到组合管理的全流程支持,内置高性能数据基础设施和多种机器学习模型。
4467 87
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
|
8月前
|
传感器 存储 人工智能
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
本文由AI产品专家三桥君探讨了AI从被动响应到主动决策的演进路径,重点分析了函数调用和RAG技术在构建AI Agent中的关键作用。文章梳理了大模型能力的迭代(原生能力与涌现能力),技术演进的三个阶段(提示工程→函数调用→RAG),并提出AI Agent需具备环境感知、推理决策和行动执行的核心要素。AI产品专家三桥君认为,未来AGI需突破跨领域学习、实时更新和安全性挑战,最终实现如"贾维斯"般的智能伙伴。
262 1
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
|
人工智能 Linux API
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
1357 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
|
8月前
|
机器学习/深度学习 人工智能 文字识别
浏览器AI模型插件下载,支持chatgpt、claude、grok、gemini、DeepSeek等顶尖AI模型!
极客侧边栏是一款浏览器插件,集成ChatGPT、Claude、Grok、Gemini等全球顶尖AI模型,支持网页提问、文档分析、图片生成、智能截图、内容总结等功能。无需切换页面,办公写作效率倍增。内置书签云同步与智能整理功能,管理更高效。跨平台使用,安全便捷,是AI时代必备工具!
618 8

热门文章

最新文章