每日学术速递2.15

简介: 为时空动作检测任务设计实时框架仍然是一个挑战。在本文中,我们提出了一种新颖的实时动作检测框架 YOWOv2。在这个新框架中,YOWOv2 利用 3D 骨干和 2D 骨干进行准确的动作检测。多级检测管道旨在检测不同规模的动作实例。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection


531e1d9b75cdb6b8727692aa44d9e0eb.png

标题:YOWOv2:用于实时时空动作检测的更强大且高效的多级检测框架

作者:Jianhua Yang, Kun Dai

文章链接:https://arxiv.org/abs/2302.06848v1

项目代码:https://github.com/yjh0410/YOWOv2

f8eab03fbfcf0674976f1119a28a29b6.png

摘要:

       为时空动作检测任务设计实时框架仍然是一个挑战。在本文中,我们提出了一种新颖的实时动作检测框架 YOWOv2。在这个新框架中,YOWOv2 利用 3D 骨干和 2D 骨干进行准确的动作检测。多级检测管道旨在检测不同规模的动作实例。为了实现这一目标,我们精心构建了一个简单高效的 2D backbone,带有特征金字塔网络,以提取不同级别的分类特征和回归特征。对于 3D 主干,我们采用现有的高效 3D CNN 来节省开发时间。通过结合不同尺寸的 3D 骨干和 2D 骨干,我们设计了一个 YOWOv2 系列,包括 YOWOv2-Tiny、YOWOv2-Medium 和 YOWOv2-Large。我们还引入了流行的动态标签分配策略和anchor-free机制,使YOWOv2与先进的模型架构设计保持一致。经过我们的改进,YOWOv2明显优于YOWO,并且仍然可以保持实时检测。没有任何附加功能,YOWOv2 在 UCF101-24 上以超过 20 FPS 的速度实现了 87.0% 的帧 mAP 和 52.8% 的视频 mAP。在 AVA 上,YOWOv2 以超过 20 FPS 的速度实现了 21.7% 的帧 mAP。

d9fe62e99580fd1c070714ed83395f9a.png

97cf87da530514906ce28dcf1965e880.png

76bc30dd72b49f55de3e7f1f06fee85a.png


2.VA-DepthNet: A Variational Approach to Single Image Depth Prediction

243100e715278449bc7196a5dfc2cf70.png

标题:VA-DepthNet:单幅图像深度预测的变分方法

作者:Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc van Gool

文章链接:https://arxiv.org/abs/2302.06556v1

项目代码:https://github.com/cnexah/va-depthnet

3b78d6e3335ef12ec28126a8cdf673cc.png

摘要:

       我们介绍了 VA-DepthNet,这是一种用于解决单图像深度预测 (SIDP) 问题的简单、有效且准确的深度神经网络方法。所提出的方法提倡对这个问题使用经典的一阶变分约束。虽然用于 SIDP 的最先进的深度神经网络方法在监督设置中从图像中学习场景深度,但它们往往忽略了刚性场景空间中无价的不变性和先验,例如场景的规律性。这篇论文的主要贡献是揭示了在 SIDP 任务的神经网络设计中经典和有充分根据的变分约束的好处。结果表明,在场景空间中施加一阶变分约束以及流行的基于编码器-解码器的网络架构设计为受监督的 SIDP 任务提供了出色的结果。强加的一阶变分约束使网络意识到场景空间中的深度梯度,即规律性。本文通过对多个基准数据集(例如 KITTI、NYU Depth V2 和 SUN RGB-D)进行广泛的评估和消融分析,证明了所提出方法的实用性。与现有技术相比,测试时的 VA-DepthNet 在深度预测精度方面有相当大的改进,并且在场景空间的高频区域也很准确。在撰写本文时,我们的方法——标记为 VA-DepthNet,在 KITTI 深度预测评估集基准上进行测试时,显示了最先进的结果,并且是表现最好的已发布方法。

4d9678f3e611c745ee3f55cbb19c38d2.png

f57d1de57c024df013db26ece3cbf99c.png


Subjects: cs.CL


3.AbLit: A Resource for Analyzing and Generating Abridged Versions of English Literature

ff113d0e260690571aac716f7df60b03.png

标题:AbLit:分析和生成英文文献删节版的资源

作者:Melissa Roemmele, Kyle Shaffer, Katrina Olsen, Yiyi Wang, Steve DeNeefe

文章链接:https://arxiv.org/abs/2302.06579v1

项目代码:https://github.com/roemmele/ablit

d4306785fe9fa40b8e2e88b3be90aa19.png

摘要:

       创建文本的删节版本涉及缩短文本,同时保持其语言质量。在本文中,我们首次从 NLP 的角度审视了这项任务。我们提供了一种新资源 AbLit,它源自英文文学书籍的删节版。该数据集捕获原始文本和删节文本之间的段落级对齐。我们描述了这些对齐的语言关系,并创建了自动化模型来预测这些关系以及为新文本生成删节。我们的研究结果表明删节是一项具有挑战性的任务,可以激发未来的资源和研究。


be1faa683c289e21f2c4397fea476e53.png

78898b53ef2614b1d673836242fdd56e.png

0812f770565aa867440e3b230752d6ef.png

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
124 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
161 0
每日学术速递3.9
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
152 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
111 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
117 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
130 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
143 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
81 0
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
119 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
173 0