7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?

简介: 7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?


本周重要论文包括谷歌研究院和加州大学伯克利分校在文本到图像模型中引入人类反馈、以及微软最新的多模态大模型等


目录:

  1. Language Is Not All You Need: Aligning Perception with Language Models
  2. Learning Harmonic Molecular Representations on Riemannian Manifold
  3. Single-cell biological network inference using a heterogeneous graph transformer
  4. Towards Stable Test-time Adaptation in Dynamic Wild World
  5. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
  6. Aligning Text-to-Image Models using Human Feedback
  7. Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Language Is Not All You Need: Aligning Perception with Language Models


摘要:微软团队介绍了一个多模态大型语言模型(MLLM)——KOSMOS-1,它可以感知一般模态、遵循指令(零样本学习)以及在上下文中学习(少样本学习)。研究目标是使感知与 LLM 保持一致,模型能够看到(see)和说话(talk)。研究者按照 METALM 的方式从头开始训练 KOSMOS-1。

推荐:微软多模态 ChatGPT 来了?16 亿参数搞定看图答题、智商测验等任务。

论文 2:Learning Harmonic Molecular Representations on Riemannian Manifold


摘要:分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛选出较为稳定的结构。这类策略效率较低,难以应用于高通量的蛋白质对接任务。

本文介绍的基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较,进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 (rigid protein docking) 。实验表明,基于 HMR 的分子对接模型比当前深度学习 SOTA [1] 有更高的准确性,并且较传统分子对接方法提速 100 倍以上。

推荐:ICLR 2023 | 初探 AI 拼图模型预测蛋白质复合物结构。

论文 3:Single-cell biological network inference using a heterogeneous graph transformer

摘要:单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态,以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。

山东大学等多机构研究团队开发了基于深度学习的单细胞数据多组学分析平台 ——DeepMAPS,用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模,并使用多头图(multi-head graph)Transformer 以稳健的方式学习局部和全局上下文中的细胞和基因之间的关系。

推荐:山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理。

论文 4:Towards Stable Test-time Adaptation in Dynamic Wild World


摘要:测试时自适应(Test-Time Adaptation,TTA)方法在测试阶段指导模型进行快速无监督 / 自监督学习,是当前用于提升深度模型分布外泛化能力的一种强有效工具。然而在动态开放场景中,稳定性不足仍是现有 TTA 方法的一大短板,严重阻碍了其实际部署。

为此,来自华南理工大学、腾讯 AI Lab 及新加坡国立大学的研究团队,从统一的角度对现有 TTA 方法在动态场景下不稳定原因进行分析,指出依赖于 Batch 的归一化层是导致不稳定的关键原因之一,另外测试数据流中某些具有噪声 / 大规模梯度的样本容易将模型优化至退化的平凡解。基于此进一步提出锐度敏感且可靠的测试时熵最小化方法 SAR,实现动态开放场景下稳定、高效的测试时模型在线迁移泛化。本工作已入选 ICLR 2023 Oral。

如下为 Test-Time Adaptation 示意图及其与现有方法特点对比。

推荐:Batch Norm 层等暴露 TTA 短板,开放环境下解决方案来了。

论文 5:A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT


摘要:在最近的一篇综述文章中,来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文,主要聚焦文本、图像和图学习领域的预训练基础模型,值得一读。杜克大学教授、加拿大工程院院士裴健,伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶,Salesforce AI Research 副总裁熊蔡明都是该论文作者之一。

推荐:从 BERT 到 ChatGPT,百页综述梳理预训练大模型演变史。

论文 6:Aligning Text-to-Image Models using Human Feedback


摘要:语言建模领域,从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈,首先学习一个旨在反映人类在任务中所关心内容的奖励函数,通过一种强化学习算法(如近端策略优化 PPO)使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习(RLHF)已经成功地将大规模语言模型(例如 GPT-3)与复杂的人类质量评估结合起来。

近日,受 RLHF 在语言领域的成功,谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法

推荐:学习 ChatGPT,AI 绘画引入人类反馈会怎样?。

论文 7:Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation


摘要:在制造机器人的过程中,灵活、适当地组合各种性能是一项挑战任务,因为这些性能有时是相互矛盾的。比方制造一个既灵活又强壮的机器人并非易事,但也不是不可能。最近一项研究中,东京工业大学制造出了这样一种机器人,它具有高度灵活性,同时仍保持其「肌肉」内的高度张力,使其躯体能进行充分的扭转,从而完成困难的任务。研究结果发表在 1 月 13 日的《IEEE 机器人和自动化通讯》。

推荐:拧瓶盖螺丝,高度灵活的柔性机器人为你开可口可乐。

目录
打赏
0
0
0
0
368
分享
相关文章
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
407 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
哈佛推出全新类ChatGPT癌症诊断AI,登上Nature!准确率高达96%
哈佛大学研究团队开发的新型AI模型CHIEF,在《自然》期刊发表,癌症诊断准确率达96%。CHIEF基于深度学习,能自动识别、分类癌症并预测生存期,具高准确性、多任务能力和泛化性。它结合病理图像与基因组学等数据,显著提升诊断效率和个性化治疗水平,有望改善医疗资源不平等。但数据隐私和临床效果验证仍是挑战。论文见:https://www.nature.com/articles/s41586-024-07894-z
195 101
当ChatGPT能写情书、Sora会造电影:我们必须掌握的AI内容识别技能
随着AI技术迅猛发展,AI生成内容在文学、新闻、绘画等领域广泛应用,但其真假难辨、质量参差不齐,可能带来信息误导、知识产权侵犯及安全风险等问题。学会识别AI生成内容至关重要,包括通过逻辑漏洞排查、语言风格分析、生物特征异常检测等手段审核文本、图片和视频。人工审核在面对高隐蔽性内容时仍不可替代,需结合工具与上下文理解共同筑起防护屏障。守护真实信息、规避风险,是每个人在AI时代应尽的责任。
55 7
ChatGPT-on-WeChat:Star32.4k, DeepSeek加持!这款开源神器秒变AI助手,聊天体验直接起飞!
嗨,大家好,我是小华同学。今天为大家介绍一款结合DeepSeek引擎的开源项目——ChatGPT-on-WeChat,由开发者zhayujie打造。它将微信变成智能AI助手,支持文本、图片、语音对话,具备定时提醒、天气查询等扩展功能,完全开源且易于定制。项目地址:https://github.com/zhayujie/chatgpt-on-wechat。关注我们,获取更多优质开源项目和高效学习方法。
270 11
DeepSeek vs ChatGPT:AI对决中的赢家是……人类吗?
DeepSeek VS ChatGPT:DeepSeek以开源黑马姿态崛起,凭借低成本、高性能的「DeepSeek-V3」和专为深度推理设计的「DeepSeek-R1」,成为中小开发者的首选。而ChatGPT则较贵。 然而,AI依赖也带来隐忧,长期使用可能导致记忆衰退和“脑雾”现象。为此,推荐Neuriva解决方案,专注力提升30%,记忆留存率提升2.1倍,助力人类在AI时代保持脑力巅峰。 DeepSeek赢在技术普惠,ChatGPT胜于生态构建,人类的关键在于平衡AI与脑力健康,实现“双核驱动”突破极限!
292 7
OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合
OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
利用小蜜蜂AI智能问答ChatGPT+AI高清绘图生成图文故事案例
利用小蜜蜂AI智能问答ChatGPT+AI高清绘图生成图文故事案例
111 1
chatgpt这么火,现在AI搜索引擎有哪些呢?
国外AI搜索引擎包括ChatGPT,擅长自然语言处理与内容生成;Google Bard,提供智能个性化搜索体验;Microsoft Bing集成GPT模型增强智能检索;Perplexity AI以简洁答案及文献引用著称;Neeva强调隐私保护与无广告服务。国内方面,天工AI支持多种功能如知识问答与代码编程;腾讯元宝基于混元模型助力内容创造与学习;360AI搜索以精准全面的信息搜索见长;秘塔AI专注提升写作质量和效率;开搜AI搜索提供个性化智能搜索服务。以上引擎均利用先进AI技术提升用户体验。更多详情参阅[AI搜索合集](zhangfeidezhu.com/?page_id=651)。
238 8
chatgpt这么火,现在AI搜索引擎有哪些呢?
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等