每日学术速递4.10

简介: 雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Super-Resolving Face Image by Facial Parsing Information

3dc7ce10f87921d3198e3acd7688f56c.png

标题:通过人脸解析信息超分辨人脸图像

作者:Chenyang Wang, Junjun Jiang, Zhiwei Zhong, Deming Zhai, Xianming Liu

文章链接:https://arxiv.org/abs/2304.02923v1

5925d31d150588e10ea5afaa2d1a7cdc.png

0ed2afa17911d80349bc3d78924b641d.png

b64a91ba72f7f90ec6c92224de0c67ef.png

d984964bb22528cb440d6da42b528f79.png

摘要:

       人脸超分辨率是一种将低分辨率的人脸图像转换成对应的高分辨率图像的技术。在本文中,我们构建了一个新的解析图引导人脸超分辨率网络,它直接从低分辨率人脸图像中提取人脸先验(即解析图)以供后续使用。为了充分利用提取的先验,精心设计了一个解析图注意力融合块,它不仅可以有效地探索解析图的信息,而且还结合了强大的注意力机制。此外,鉴于高分辨率特征包含更精确的空间信息,而低分辨率特征提供强大的上下文信息,我们希望保持和利用这些互补信息。为了实现这一目标,我们开发了一个多尺度细化块来维护空间和上下文信息,并利用多尺度特征来细化特征表示。实验结果表明,我们的方法在定量指标和视觉质量方面优于最先进的方法。源代码将在这个 https URL 上可用。

2.GA-HQS: MRI reconstruction via a generically accelerated unfolding approach

14f5639db92bbb83eeee2154ee693c71.png

标题:GA-HQS:通过一般加速展开方法进行 MRI 重建

作者:Jiawei Jiang, Yuchao Feng, Honghui Xu, Wanjun Chen, Jianwei Zheng

文章链接:https://arxiv.org/abs/2304.02883v1

e647d42d158b20b25ded61fe15a753f5.png

52789817208670bed9311ed3926c125b.png

f694e5db731dea8249b332725406d722.png

9b0ae223d62c5049f3deb0134155be80.png

摘要:

       深度展开网络 (DUN) 是压缩感知 MRI 领域中最重要的方法,因为它们可以使用可学习的网络来促进可解释的前向推理运算符。然而,仍然存在一些令人生畏的问题,包括对一阶优化算法的严重依赖、信息融合机制的不足以及捕获远程关系的局限性。为了解决这些问题,我们提出了一种通用加速半二次分裂 (GA-HQS) 算法,该算法结合了二阶梯度信息和金字塔注意模块,用于像素级输入的精细融合。此外,还设计了多尺度分裂变换器来增强全局特征表示。综合实验表明,我们的方法在单线圈 MRI 加速任务上优于以前的方法。

3.Towards an Effective and Efficient Transformer for Rain-by-snow Weather Removal


标题:迈向一个有效和高效的Transformer,用于去除雨雪天气

作者:Ioannis Siglidis, Nicolas Gonthier, Julien Gaubil, Tom Monnier, Mathieu Aubry

文章链接:https://arxiv.org/abs/2304.02860v1

项目代码:https://github.com/chdwyb/RSFormer

bf9230ccc2f3051223d4c130c5add435.png

3c9836502c6f81cfb40413ef170a5c7f.png

7d680c745781467424b40b161bd98bf4.png

8cf1ca50bf01e971107bb8d53f5289ef.png

ee7ecf477303ef98df890c022a92edca.png

摘要:

       雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。在此基础上,我们利用类似 Transformer 的卷积块 (TCB) 代替计算量大的自注意力,同时保留适应输入内容的注意力特性。我们还证明了跨阶段进展对于性能改进至关重要,并提出了一种全局-局部自注意采样机制 (GLASM),该机制在捕获全局和局部依赖性的同时对特征进行向下/向上采样。最后,我们合成了两个新的雨雪数据集 RSCityScape 和 RS100K,以评估我们提出的 RSFormer。大量实验证明,与其他恢复方法相比,RSFormer 在性能和时间消耗之间取得了最佳平衡。例如,它优于 Restormer,参数数量减少了 1.53%,推理时间减少了 15.6%。数据集、源代码和预训练模型可在 \url{ 此 https URL } 获得。

目录
相关文章
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
167 0
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
216 0
每日学术速递3.20
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
213 0
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
236 0
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
202 0
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
169 0
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
144 0
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
225 0
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
159 0
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
219 0