每日学术速递4.10

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Super-Resolving Face Image by Facial Parsing Information

3dc7ce10f87921d3198e3acd7688f56c.png

标题:通过人脸解析信息超分辨人脸图像

作者:Chenyang Wang, Junjun Jiang, Zhiwei Zhong, Deming Zhai, Xianming Liu

文章链接:https://arxiv.org/abs/2304.02923v1

5925d31d150588e10ea5afaa2d1a7cdc.png

0ed2afa17911d80349bc3d78924b641d.png

b64a91ba72f7f90ec6c92224de0c67ef.png

d984964bb22528cb440d6da42b528f79.png

摘要:

       人脸超分辨率是一种将低分辨率的人脸图像转换成对应的高分辨率图像的技术。在本文中,我们构建了一个新的解析图引导人脸超分辨率网络,它直接从低分辨率人脸图像中提取人脸先验(即解析图)以供后续使用。为了充分利用提取的先验,精心设计了一个解析图注意力融合块,它不仅可以有效地探索解析图的信息,而且还结合了强大的注意力机制。此外,鉴于高分辨率特征包含更精确的空间信息,而低分辨率特征提供强大的上下文信息,我们希望保持和利用这些互补信息。为了实现这一目标,我们开发了一个多尺度细化块来维护空间和上下文信息,并利用多尺度特征来细化特征表示。实验结果表明,我们的方法在定量指标和视觉质量方面优于最先进的方法。源代码将在这个 https URL 上可用。

2.GA-HQS: MRI reconstruction via a generically accelerated unfolding approach

14f5639db92bbb83eeee2154ee693c71.png

标题:GA-HQS:通过一般加速展开方法进行 MRI 重建

作者:Jiawei Jiang, Yuchao Feng, Honghui Xu, Wanjun Chen, Jianwei Zheng

文章链接:https://arxiv.org/abs/2304.02883v1

e647d42d158b20b25ded61fe15a753f5.png

52789817208670bed9311ed3926c125b.png

f694e5db731dea8249b332725406d722.png

9b0ae223d62c5049f3deb0134155be80.png

摘要:

       深度展开网络 (DUN) 是压缩感知 MRI 领域中最重要的方法,因为它们可以使用可学习的网络来促进可解释的前向推理运算符。然而,仍然存在一些令人生畏的问题,包括对一阶优化算法的严重依赖、信息融合机制的不足以及捕获远程关系的局限性。为了解决这些问题,我们提出了一种通用加速半二次分裂 (GA-HQS) 算法,该算法结合了二阶梯度信息和金字塔注意模块,用于像素级输入的精细融合。此外,还设计了多尺度分裂变换器来增强全局特征表示。综合实验表明,我们的方法在单线圈 MRI 加速任务上优于以前的方法。

3.Towards an Effective and Efficient Transformer for Rain-by-snow Weather Removal


标题:迈向一个有效和高效的Transformer,用于去除雨雪天气

作者:Ioannis Siglidis, Nicolas Gonthier, Julien Gaubil, Tom Monnier, Mathieu Aubry

文章链接:https://arxiv.org/abs/2304.02860v1

项目代码:https://github.com/chdwyb/RSFormer

bf9230ccc2f3051223d4c130c5add435.png

3c9836502c6f81cfb40413ef170a5c7f.png

7d680c745781467424b40b161bd98bf4.png

8cf1ca50bf01e971107bb8d53f5289ef.png

ee7ecf477303ef98df890c022a92edca.png

摘要:

       雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。在此基础上,我们利用类似 Transformer 的卷积块 (TCB) 代替计算量大的自注意力,同时保留适应输入内容的注意力特性。我们还证明了跨阶段进展对于性能改进至关重要,并提出了一种全局-局部自注意采样机制 (GLASM),该机制在捕获全局和局部依赖性的同时对特征进行向下/向上采样。最后,我们合成了两个新的雨雪数据集 RSCityScape 和 RS100K,以评估我们提出的 RSFormer。大量实验证明,与其他恢复方法相比,RSFormer 在性能和时间消耗之间取得了最佳平衡。例如,它优于 Restormer,参数数量减少了 1.53%,推理时间减少了 15.6%。数据集、源代码和预训练模型可在 \url{ 此 https URL } 获得。

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
120 0
每日学术速递3.27
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
147 0
每日学术速递4.3
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
146 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
81 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
98 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
106 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
145 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
93 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
111 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
124 0