7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本

简介: 7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本

参与:杜伟、楚航、罗若天

本周论文包括 MIT 造出薄如纸的太阳能电池板;推理速度比 Stable Diffusion 快 2 倍的 Muse 模型等研究。


目录:

  1. One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations
  2. Printed Organic Photovoltaic Modules on Transferable Ultra-thin Substrates as Additive Power Sources
  3. A Survey of Deep Learning for Mathematical Reasoning
  4. Muse: Text-To-Image Generation via Masked Generative Transformers
  5. Positive-Incentive Noise
  6. ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo
  7. Image-and-Language Understanding from Pixels Only
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations


摘要本文首先利用已有的编码器将需要编辑的图像转换到 StyleGAN 的 W^+ 语义空间中的潜在编码 w,再通过提出的语义调制模块对该隐编码进行自适应的调制。该语义调制模块包括语义对齐和语义注入模块,首先通过注意力机制对齐文本编码和 GAN 的隐编码之间的语义,再将文本信息注入到对齐后的隐编码中,从而保证该隐编码拥有文本信息从而达到利用文本编辑图像能力。

不同于经典的 StyleCLIP 模型,我们的模型无需对每个文本单独训练一个模型,一个模型就可以响应多个文本从而对图像做有效的编辑,所以我们的模型成为 FFCLIP-Free Form Text-Driven Image Manipulation。同时我们的模型在经典的教堂,人脸以及汽车数据集上都取得了非常不错的效果。
图 1:整体框架图


推荐:文本图片编辑新范式,单个模型实现多文本引导图像编辑。

论文 2:Printed Organic Photovoltaic Modules on Transferable Ultra-thin Substrates as Additive Power Sources


摘要:麻省理工学院的研究人员已经开发出一种可扩展的制造技术,可以生产超薄、轻质的太阳能电池,这种电池可以铺设在任何表面上。

MIT 的研究人员制造出了比人类头发还薄的太阳能电池板,该电池板每公斤提供的能量是目前玻璃和硅基太阳能电池板的 18 倍。这些太阳能电池板的重量只有传统光电电池的百分之一。

这种超薄太阳能板也可以安装到船帆、无人机机翼和帐篷上。它们在偏远地区和救灾行动中尤其有用。

推荐:MIT 造出薄如纸的太阳能电池板。

论文 3:A Survey of Deep Learning for Mathematical Reasoning


摘要:在近期发布的一篇报告中,来自 UCLA 等机构的研究者系统回顾了深度学习在数学推理方面的进展。

具体而言,本文讨论了各种任务和数据集(第 2 节),并研究了神经网络(第 3 节)和预训练语言模型(第 4 节)在数学领域的进展。此外还探讨了大型语言模型的上下文学习在数学推理中的快速发展(第 5 节)。文章进一步分析了现有的基准,发现对多模态和低资源环境的关注较少(第 6.1 节)。基于循证的研究表明,目前的计算能力表征是不充分的,深度学习方法在数学推理方面也是不一致的(第 6.2 节)。随后,作者建议在概括性和鲁棒性、可信推理、从反馈中学习和多模态数学推理方面改进目前的工作(第 7 节)。

推荐:深度学习如何慢慢推开数学推理的门。

论文 4:Muse: Text-To-Image Generation via Masked Generative Transformers


摘要:该研究提出了一种使用掩码图像建模方法进行文本到图像合成的新模型,其中的图像解码器架构以来自预训练和 frozen T5-XXL 大型语言模型 (LLM) 编码器的嵌入为条件。

与建立在级联像素空间(pixel-space)扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了离散 token,效率显著提升。与 SOTA 自回归模型 Parti (Yu et al., 2022) 相比,Muse 因使用并行解码而效率更高。

基于在 TPU-v4 上的实验结果,研究者估计 Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者认为:Muse 比 Stable Diffusion 推理速度更快是因为 Stable Diffusion v1.4 中使用了扩散模型,在推理时明显需要更多次迭代。

模型体系架构概述。

推荐:推理速度比 Stable Diffusion 快 2 倍,生成、修复图像谷歌一个模型搞定。

论文 5:Positive-Incentive Noise


摘要:在各式各样的科学研究的方方面面中,噪声大量存在,如仪器精度不足导致的仪器误差、人为操作中的失误导致的偏差、极端环境等外界干扰导致的信息失真等。研究者普遍认为噪声通常会对执行的任务产生不良影响,这已成为一个约定俗成的假设。因此,围绕着 “降噪” 这一核心任务产生了大量的研究工作。然而,西北工业大学李学龙教授团队在执行信号探测和处理任务时通过实验观察验证,对这一假设产生了质疑:科学研究中的噪声真的总是有害的吗?

恰如图 1 所示,在一个图像智能分类系统中,对图像加入适量的噪声后再训练,识别准确率反而上升了。这给我们带来一点启发:图像中加入一些噪声,而不是去除,再执行图像分类任务,可能效果会更好。只要噪声对目标的影响远小于噪声对背景的影响,产生 “伤敌(背景噪声)一千,自(目标信号)损八百” 的效果就有意义,因为任务追求的是高信噪比。从本质上来说,面对传统分类问题,在特征后随机加上适度的噪声,相当于升高了特征维度,某种意义上说,类似是给特征增加了一个核函数,实际上完成了一种低维空间到高维空间的映射,使数据更可分,从而提高了分类效果。

图 1 图像识别准确率随图像噪声强度的增大而 “反直觉” 地呈现出 “先增后减” 的关系。

推荐:西工大李学龙教授提出基于任务熵的数学分析框架。

论文 6:ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo


摘要:来自达摩院的研究者以实现专业级的智能美肤为出发点,研发了一套高清图像的超精细局部修图算法 ABPN,在超清图像中的美肤与服饰去皱任务中都实现了很好的效果与应用。

如上图所示,网络结构主要由两个部分组成:上下文感知的局部修饰层(LRL)和自适应混合金字塔层(BPL)。其中 LRL 的目的是对降采样后的低分辨率图像进行局部修饰,生成低分辨率的修饰结果图,充分考虑全局的上下文信息以及局部的纹理信息。进一步,BPL 用于将 LRL 中生成的低分辨率结果逐步向上拓展到高分辨率结果。其中,我们设计了一个自适应混合模块(ABM)及其逆向模块(R-ABM),利用中间混合图层 Bi,可实现原图与结果图之间的自适应转换以及向上拓展,展现了强大的可拓展性和细节保真能力。我们在脸部修饰及服饰修饰两个数据集中进行了大量实验,结果表明我们的方法在效果和效率上都大幅度地领先了现有方法。值得一提的是,我们的模型在单卡 P100 上实现了 4K 超高分辨率图像的实时推理。

推荐:一键抹去瑕疵、褶皱。

论文 7:Image-and-Language Understanding from Pixels Only


摘要:开发一个可以处理任何模态或模态组合的单一端到端模型,将是多模态学习的重要一步。本文中,来自谷歌研究院(谷歌大脑团队)、苏黎世的研究者将主要关注图像和文本。

本文将对使用纯基于像素的模型进行文本和图像的多模态学习进行探索。该模型是一个单独的视觉 Transformer,它处理视觉输入或文本,或两者一起,所有都呈现为 RGB 图像。所有模态都使用相同的模型参数,包括低级特征处理;也就是说,不存在特定于模态的初始卷积、tokenization 算法或输入嵌入表。该模型仅用一个任务训练:对比学习,正如 CLIP 和 ALIGN 所推广的那样。因此模型被称作 CLIP-Pixels Only(CLIPPO)。

推荐:参数减半、与 CLIP 一样好,视觉 Transformer 从像素入手实现图像文本统一。

相关文章
|
SQL 分布式计算 Java
Neo4j导入数据的几种方法
create语句 CREATE (a:Person {name: '张三', sex: '男'}) 如利用create批量写入,这里我使用的是scala+spark,代码如下: object Neo4jConnect { def main(args: Array[String]).
4021 0
|
5月前
|
Kubernetes 调度 开发者
qwen模型 MindIE PD分离部署问题定位
使用MindIE提供的PD分离特性部署qwen2-7B模型,使用k8s拉起容器,参考这个文档进行部署:https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0060.html,1个Prefill,1个Decode。 最后一步测试推理请求的时候,出现报错:model instance has been finalized or not initialized。
346 1
|
4月前
|
人工智能 算法 PyTorch
MindIE-LLM ATB模型推理全流程解析
最近,有很多小伙伴问我,如果他们想自己基于MindIE镜像中的文件适配新模型,可以怎么做? 为了实现这个目标,首先需要了解MindIE-LLM模型在推理过程中的代码调用流程,然后根据新模型的算法进行适配。
116 1
|
6月前
|
机器学习/深度学习 人工智能 数据可视化
智谱AI新突破!GLM-Z1-Rumination:新一代沉思模型,推动AI助手进入"高智商+高自主"的新阶段
GLM-Z1-Rumination是智谱推出的新一代沉思模型,通过扩展强化学习训练实现长程推理能力,支持动态工具调用与自我验证机制,显著提升AI自主研究能力。
309 13
智谱AI新突破!GLM-Z1-Rumination:新一代沉思模型,推动AI助手进入"高智商+高自主"的新阶段
|
7月前
|
人工智能 自然语言处理 安全
详解:Claude 3.7 Sonnet 国内使用指南_claude使用教程
Claude 3.7在对话理解和生成能力上都进行了显著的提升
5578 14
|
10月前
|
机器学习/深度学习 人工智能 Linux
SAM 2.1:Meta 开源的图像和视频分割,支持实时视频处理
SAM 2.1是由Meta(Facebook的母公司)推出的先进视觉分割模型,专为图像和视频处理设计。该模型基于Transformer架构和流式记忆设计,实现了实时视频处理,并引入了数据增强技术,提升了对视觉相似物体和小物体的识别能力。SAM 2.1的主要功能包括图像和视频分割、实时视频处理、用户交互式分割、多对象跟踪以及改进的遮挡处理能力。
708 6
SAM 2.1:Meta 开源的图像和视频分割,支持实时视频处理
|
11月前
|
人工智能 自然语言处理 物联网
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
LLM2CLIP 为多模态学习提供了一种新的范式,通过整合 LLM 的强大功能来增强 CLIP 模型。
453 3
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
|
10月前
|
自然语言处理 并行计算 API
Qwen模型应用:微调与部署实践
Qwen模型应用:微调与部署实践
2323 0
|
小程序 开发者
【经验分享】支付宝小程序如何获取外部链接携带的参数
【经验分享】支付宝小程序如何获取外部链接携带的参数
853 7
|
自然语言处理 知识图谱
【笔记】探索生成范式:大型语言模型在信息提取中的作用
【笔记】探索生成范式:大型语言模型在信息提取中的作用
345 7