每日学术速递2.10

简介: 虽然鱼眼图像的失真校正已被广泛研究,但鱼眼视频的校正仍是一个难以捉摸的挑战。对于鱼眼视频的不同帧,现有的图像校正方法忽略了序列的相关性,导致校正后的视频出现时间上的抖动。为了解决这个问题,我们提出了一个时间加权方案,以获得一个合理的全局光流,通过逐步减少帧的权重来缓解抖动效应。

Subjects: cs.Cv


1.Spatiotemporal Deformation Perception for Fisheye Video Rectification


6d5e8cb3d731ce399aa7fb89004d7dd5.png


标题:鱼眼视频矫正的时空形变感知

作者:Shangrong Yang, Chunyu Lin, Kang Liao, Yao Zhao

文章链接:https://arxiv.org/abs/2302.03934v1

项目代码:https://github.com/uof1745-cmd/sdp

6b9ea0b3b6904532ab932ae0e8eaac2c.png

a91a1fe767bca93fd02741cb2db2548a.png

48617e1caae18a66ceaed89d71215942.png

摘要:

       虽然鱼眼图像的失真校正已被广泛研究,但鱼眼视频的校正仍是一个难以捉摸的挑战。对于鱼眼视频的不同帧,现有的图像校正方法忽略了序列的相关性,导致校正后的视频出现时间上的抖动。为了解决这个问题,我们提出了一个时间加权方案,以获得一个合理的全局光流,通过逐步减少帧的权重来缓解抖动效应。随后,我们观察到,视频的帧间光流有利于感知鱼眼视频的局部空间变形。因此,我们通过鱼眼视频和无变形视频的流来推导空间变形,从而提高预测结果的局部准确性。然而,每一帧的独立校正会破坏时间上的关联性。由于鱼眼视频的特性,一个扭曲的运动物体可能会在另一个时刻找到其无扭曲的模式。为此,我们设计了一个时间变形聚合器来重建帧之间的变形相关性,并提供一个可靠的全局特征。我们的方法实现了端到端的校正,与SOTA校正方法相比,在校正质量和稳定性方面表现出优越性。

Although the distortion correction of fisheye images has been extensively studied, the correction of fisheye videos is still an elusive challenge. For different frames of the fisheye video, the existing image correction methods ignore the correlation of sequences, resulting in temporal jitter in the corrected video. To solve this problem, we propose a temporal weighting scheme to get a plausible global optical flow, which mitigates the jitter effect by progressively reducing the weight of frames. Subsequently, we observe that the inter-frame optical flow of the video is facilitated to perceive the local spatial deformation of the fisheye video. Therefore, we derive the spatial deformation through the flows of fisheye and distorted-free videos, thereby enhancing the local accuracy of the predicted result. However, the independent correction for each frame disrupts the temporal correlation. Due to the property of fisheye video, a distorted moving object may be able to find its distorted-free pattern at another moment. To this end, a temporal deformation aggregator is designed to reconstruct the deformation correlation between frames and provide a reliable global feature. Our method achieves an end-to-end correction and demonstrates superiority in correction quality and stability compared with the SOTA correction methods.

2.Convolutional Neural Networks Trained to Identify Words Provide a Good Account of Visual Form Priming Effects

66ea0b4e47c24a69423cf8ee45ef5178.png

标题:训练有素的卷积神经网络为识别单词提供了一个很好的视觉形式诱导效应的说明

作者:Dong Yin, Valerio Biscione, Jeffrey Bowers

文章链接:https://arxiv.org/abs/2302.03992v1

项目代码:https://github.com/don-yin/orthographic-dnn

edad1304896f852283eeb88431492b26.png

4f80405bb9a8ef69fc2e1df64ca1a725.png

摘要:

       为了解释提供字母串之间正字学相似性测量的掩蔽引语数据,人们开发了各种各样的正字学编码方案和视觉单词识别模型。这些模型倾向于包括手工编码的正字表征,并对特定形式的知识进行单一单元编码(例如,对特定位置的字母或字母序列进行编码的单元)。在这里,我们评估了这些编码方案和模型的范围是如何解释形式引力项目中的形式引力效果的,并将这些发现与计算机科学中开发的11个标准深度神经网络模型(DNNs)中观察到的结果进行了比较。我们发现,深度卷积网络的表现与编码方案和单词识别模型一样好,甚至更好,而转化器网络则表现较差。卷积网络的成功是显著的,因为它们的架构不是为支持单词识别而开发的(它们被设计为在物体识别上表现良好),而且它们对单词的像素图像进行分类(而对字母串进行人工编码)。这些发现补充了最近的工作(Hannagan等人,2021年),表明卷积网络可能捕获视觉单词识别的关键方面。

A wide variety of orthographic coding schemes and models of visual word identification have been developed to account for masked priming data that provide a measure of orthographic similarity between letter strings. These models tend to include hand-coded orthographic representations with single unit coding for specific forms of knowledge (e.g., units coding for a letter in a given position or a letter sequence). Here we assess how well a range of these coding schemes and models account for the pattern of form priming effects taken from the Form Priming Project and compare these findings to results observed in with 11 standard deep neural network models (DNNs) developed in computer science. We find that deep convolutional networks perform as well or better than the coding schemes and word recognition models, whereas transformer networks did less well. The success of convolutional networks is remarkable as their architectures were not developed to support word recognition (they were designed to perform well on object recognition) and they classify pixel images of words (rather artificial encodings of letter strings). The findings add to the recent work of (Hannagan et al., 2021) suggesting that convolutional networks may capture key aspects of visual word identification.

3.Cross-Layer Retrospective Retrieving via Layer Attention(ICLR 2023)

b18125982c9f3774ff1b3f8e261c4dc4.png

标题:通过层注意进行跨层回顾性检索

作者:Yanwen Fang, Yuxi Cai, Jintai Chen, Jingyu Zhao, Guangjian Tian, Guodong Li

文章链接:https://arxiv.org/abs/2302.03985v2

项目代码:https://github.com/joyfang1106/mrla

7605007a707a61af4415a917b600aa50.png

d921597f5c7351df1ae8aab6897f5475.png

2d871f5ce174087a129a65114defeb84.png

摘要:

       越来越多的证据表明,加强层间互动可以增强深度神经网络的表征能力,而自我注意擅长通过检索查询激活的信息来学习相互依赖。受此启发,我们设计了一种跨层注意机制,称为多头循环层注意(MRLA),它将当前层的查询表征发送到所有以前的层,以便从不同层次的感受野检索查询相关信息。还提出了一个轻量级的MRLA版本,以减少二次计算的成本。所提出的层关注机制可以丰富许多最先进的视觉网络的表示能力,包括CNN和视觉变换器。它的有效性已经在图像分类、物体检测和实例分割任务中得到了广泛的评估,可以持续观察到改进。例如,我们的MRLA可以在ResNet-50上提高1.6%的Top-1准确性,而只引入了0.16M的参数和0.07B的FLOPs。令人惊讶的是,在密集预测任务中,它能以很大的幅度提高3-4%的盒式AP和掩码AP的性能。

More and more evidence has shown that strengthening layer interactions can enhance the representation power of a deep neural network, while self-attention excels at learning interdependencies by retrieving query-activated information. Motivated by this, we devise a cross-layer attention mechanism, called multi-head recurrent layer attention (MRLA), that sends a query representation of the current layer to all previous layers to retrieve query-related information from different levels of receptive fields. A light-weighted version of MRLA is also proposed to reduce the quadratic computation cost. The proposed layer attention mechanism can enrich the representation power of many state-of-the-art vision networks, including CNNs and vision transformers. Its effectiveness has been extensively evaluated in image classification, object detection and instance segmentation tasks, where improvements can be consistently observed. For example, our MRLA can improve 1.6% Top-1 accuracy on ResNet-50, while only introducing 0.16M parameters and 0.07B FLOPs. Surprisingly, it can boost the performances by a large margin of 3-4% box AP and mask AP in dense prediction tasks. Our code is available at https://github.com/joyfang1106/MRLA.

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
108 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
110 0
每日学术速递3.27
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
107 0
|
传感器 机器学习/深度学习 自然语言处理
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
112 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
102 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
98 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
110 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
91 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
163 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
116 0
下一篇
无影云桌面