每日学术速递4.10

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Super-Resolving Face Image by Facial Parsing Information

3dc7ce10f87921d3198e3acd7688f56c.png

标题:通过人脸解析信息超分辨人脸图像

作者:Chenyang Wang, Junjun Jiang, Zhiwei Zhong, Deming Zhai, Xianming Liu

文章链接:https://arxiv.org/abs/2304.02923v1

5925d31d150588e10ea5afaa2d1a7cdc.png

0ed2afa17911d80349bc3d78924b641d.png

b64a91ba72f7f90ec6c92224de0c67ef.png

d984964bb22528cb440d6da42b528f79.png

摘要:

       人脸超分辨率是一种将低分辨率的人脸图像转换成对应的高分辨率图像的技术。在本文中,我们构建了一个新的解析图引导人脸超分辨率网络,它直接从低分辨率人脸图像中提取人脸先验(即解析图)以供后续使用。为了充分利用提取的先验,精心设计了一个解析图注意力融合块,它不仅可以有效地探索解析图的信息,而且还结合了强大的注意力机制。此外,鉴于高分辨率特征包含更精确的空间信息,而低分辨率特征提供强大的上下文信息,我们希望保持和利用这些互补信息。为了实现这一目标,我们开发了一个多尺度细化块来维护空间和上下文信息,并利用多尺度特征来细化特征表示。实验结果表明,我们的方法在定量指标和视觉质量方面优于最先进的方法。源代码将在这个 https URL 上可用。

2.GA-HQS: MRI reconstruction via a generically accelerated unfolding approach

14f5639db92bbb83eeee2154ee693c71.png

标题:GA-HQS:通过一般加速展开方法进行 MRI 重建

作者:Jiawei Jiang, Yuchao Feng, Honghui Xu, Wanjun Chen, Jianwei Zheng

文章链接:https://arxiv.org/abs/2304.02883v1

e647d42d158b20b25ded61fe15a753f5.png

52789817208670bed9311ed3926c125b.png

f694e5db731dea8249b332725406d722.png

9b0ae223d62c5049f3deb0134155be80.png

摘要:

       深度展开网络 (DUN) 是压缩感知 MRI 领域中最重要的方法,因为它们可以使用可学习的网络来促进可解释的前向推理运算符。然而,仍然存在一些令人生畏的问题,包括对一阶优化算法的严重依赖、信息融合机制的不足以及捕获远程关系的局限性。为了解决这些问题,我们提出了一种通用加速半二次分裂 (GA-HQS) 算法,该算法结合了二阶梯度信息和金字塔注意模块,用于像素级输入的精细融合。此外,还设计了多尺度分裂变换器来增强全局特征表示。综合实验表明,我们的方法在单线圈 MRI 加速任务上优于以前的方法。

3.Towards an Effective and Efficient Transformer for Rain-by-snow Weather Removal


标题:迈向一个有效和高效的Transformer,用于去除雨雪天气

作者:Ioannis Siglidis, Nicolas Gonthier, Julien Gaubil, Tom Monnier, Mathieu Aubry

文章链接:https://arxiv.org/abs/2304.02860v1

项目代码:https://github.com/chdwyb/RSFormer

bf9230ccc2f3051223d4c130c5add435.png

3c9836502c6f81cfb40413ef170a5c7f.png

7d680c745781467424b40b161bd98bf4.png

8cf1ca50bf01e971107bb8d53f5289ef.png

ee7ecf477303ef98df890c022a92edca.png

摘要:

       雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。在此基础上,我们利用类似 Transformer 的卷积块 (TCB) 代替计算量大的自注意力,同时保留适应输入内容的注意力特性。我们还证明了跨阶段进展对于性能改进至关重要,并提出了一种全局-局部自注意采样机制 (GLASM),该机制在捕获全局和局部依赖性的同时对特征进行向下/向上采样。最后,我们合成了两个新的雨雪数据集 RSCityScape 和 RS100K,以评估我们提出的 RSFormer。大量实验证明,与其他恢复方法相比,RSFormer 在性能和时间消耗之间取得了最佳平衡。例如,它优于 Restormer,参数数量减少了 1.53%,推理时间减少了 15.6%。数据集、源代码和预训练模型可在 \url{ 此 https URL } 获得。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
156 0
每日学术速递3.9
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
76 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
125 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.29
在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。
160 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
178 0
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
118 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
138 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
141 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
148 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
142 0

热门文章

最新文章