每日学术速递4.10

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Super-Resolving Face Image by Facial Parsing Information

3dc7ce10f87921d3198e3acd7688f56c.png

标题:通过人脸解析信息超分辨人脸图像

作者:Chenyang Wang, Junjun Jiang, Zhiwei Zhong, Deming Zhai, Xianming Liu

文章链接:https://arxiv.org/abs/2304.02923v1

5925d31d150588e10ea5afaa2d1a7cdc.png

0ed2afa17911d80349bc3d78924b641d.png

b64a91ba72f7f90ec6c92224de0c67ef.png

d984964bb22528cb440d6da42b528f79.png

摘要:

       人脸超分辨率是一种将低分辨率的人脸图像转换成对应的高分辨率图像的技术。在本文中,我们构建了一个新的解析图引导人脸超分辨率网络,它直接从低分辨率人脸图像中提取人脸先验(即解析图)以供后续使用。为了充分利用提取的先验,精心设计了一个解析图注意力融合块,它不仅可以有效地探索解析图的信息,而且还结合了强大的注意力机制。此外,鉴于高分辨率特征包含更精确的空间信息,而低分辨率特征提供强大的上下文信息,我们希望保持和利用这些互补信息。为了实现这一目标,我们开发了一个多尺度细化块来维护空间和上下文信息,并利用多尺度特征来细化特征表示。实验结果表明,我们的方法在定量指标和视觉质量方面优于最先进的方法。源代码将在这个 https URL 上可用。

2.GA-HQS: MRI reconstruction via a generically accelerated unfolding approach

14f5639db92bbb83eeee2154ee693c71.png

标题:GA-HQS:通过一般加速展开方法进行 MRI 重建

作者:Jiawei Jiang, Yuchao Feng, Honghui Xu, Wanjun Chen, Jianwei Zheng

文章链接:https://arxiv.org/abs/2304.02883v1

e647d42d158b20b25ded61fe15a753f5.png

52789817208670bed9311ed3926c125b.png

f694e5db731dea8249b332725406d722.png

9b0ae223d62c5049f3deb0134155be80.png

摘要:

       深度展开网络 (DUN) 是压缩感知 MRI 领域中最重要的方法,因为它们可以使用可学习的网络来促进可解释的前向推理运算符。然而,仍然存在一些令人生畏的问题,包括对一阶优化算法的严重依赖、信息融合机制的不足以及捕获远程关系的局限性。为了解决这些问题,我们提出了一种通用加速半二次分裂 (GA-HQS) 算法,该算法结合了二阶梯度信息和金字塔注意模块,用于像素级输入的精细融合。此外,还设计了多尺度分裂变换器来增强全局特征表示。综合实验表明,我们的方法在单线圈 MRI 加速任务上优于以前的方法。

3.Towards an Effective and Efficient Transformer for Rain-by-snow Weather Removal


标题:迈向一个有效和高效的Transformer,用于去除雨雪天气

作者:Ioannis Siglidis, Nicolas Gonthier, Julien Gaubil, Tom Monnier, Mathieu Aubry

文章链接:https://arxiv.org/abs/2304.02860v1

项目代码:https://github.com/chdwyb/RSFormer

bf9230ccc2f3051223d4c130c5add435.png

3c9836502c6f81cfb40413ef170a5c7f.png

7d680c745781467424b40b161bd98bf4.png

8cf1ca50bf01e971107bb8d53f5289ef.png

ee7ecf477303ef98df890c022a92edca.png

摘要:

       雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。在此基础上,我们利用类似 Transformer 的卷积块 (TCB) 代替计算量大的自注意力,同时保留适应输入内容的注意力特性。我们还证明了跨阶段进展对于性能改进至关重要,并提出了一种全局-局部自注意采样机制 (GLASM),该机制在捕获全局和局部依赖性的同时对特征进行向下/向上采样。最后,我们合成了两个新的雨雪数据集 RSCityScape 和 RS100K,以评估我们提出的 RSFormer。大量实验证明,与其他恢复方法相比,RSFormer 在性能和时间消耗之间取得了最佳平衡。例如,它优于 Restormer,参数数量减少了 1.53%,推理时间减少了 15.6%。数据集、源代码和预训练模型可在 \url{ 此 https URL } 获得。

目录
打赏
0
0
0
0
12
分享
相关文章
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
203 0
每日学术速递3.20
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
190 0
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
146 0
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
172 0
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
152 0
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
162 0
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
229 0
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
188 0
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
203 0
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
133 0