CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection
标题:YOWOv2:用于实时时空动作检测的更强大且高效的多级检测框架
作者:Jianhua Yang, Kun Dai
文章链接:https://arxiv.org/abs/2302.06848v1
项目代码:https://github.com/yjh0410/YOWOv2
摘要:
为时空动作检测任务设计实时框架仍然是一个挑战。在本文中,我们提出了一种新颖的实时动作检测框架 YOWOv2。在这个新框架中,YOWOv2 利用 3D 骨干和 2D 骨干进行准确的动作检测。多级检测管道旨在检测不同规模的动作实例。为了实现这一目标,我们精心构建了一个简单高效的 2D backbone,带有特征金字塔网络,以提取不同级别的分类特征和回归特征。对于 3D 主干,我们采用现有的高效 3D CNN 来节省开发时间。通过结合不同尺寸的 3D 骨干和 2D 骨干,我们设计了一个 YOWOv2 系列,包括 YOWOv2-Tiny、YOWOv2-Medium 和 YOWOv2-Large。我们还引入了流行的动态标签分配策略和anchor-free机制,使YOWOv2与先进的模型架构设计保持一致。经过我们的改进,YOWOv2明显优于YOWO,并且仍然可以保持实时检测。没有任何附加功能,YOWOv2 在 UCF101-24 上以超过 20 FPS 的速度实现了 87.0% 的帧 mAP 和 52.8% 的视频 mAP。在 AVA 上,YOWOv2 以超过 20 FPS 的速度实现了 21.7% 的帧 mAP。
2.VA-DepthNet: A Variational Approach to Single Image Depth Prediction
标题:VA-DepthNet:单幅图像深度预测的变分方法
作者:Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc van Gool
文章链接:https://arxiv.org/abs/2302.06556v1
项目代码:https://github.com/cnexah/va-depthnet
摘要:
我们介绍了 VA-DepthNet,这是一种用于解决单图像深度预测 (SIDP) 问题的简单、有效且准确的深度神经网络方法。所提出的方法提倡对这个问题使用经典的一阶变分约束。虽然用于 SIDP 的最先进的深度神经网络方法在监督设置中从图像中学习场景深度,但它们往往忽略了刚性场景空间中无价的不变性和先验,例如场景的规律性。这篇论文的主要贡献是揭示了在 SIDP 任务的神经网络设计中经典和有充分根据的变分约束的好处。结果表明,在场景空间中施加一阶变分约束以及流行的基于编码器-解码器的网络架构设计为受监督的 SIDP 任务提供了出色的结果。强加的一阶变分约束使网络意识到场景空间中的深度梯度,即规律性。本文通过对多个基准数据集(例如 KITTI、NYU Depth V2 和 SUN RGB-D)进行广泛的评估和消融分析,证明了所提出方法的实用性。与现有技术相比,测试时的 VA-DepthNet 在深度预测精度方面有相当大的改进,并且在场景空间的高频区域也很准确。在撰写本文时,我们的方法——标记为 VA-DepthNet,在 KITTI 深度预测评估集基准上进行测试时,显示了最先进的结果,并且是表现最好的已发布方法。
Subjects: cs.CL
3.AbLit: A Resource for Analyzing and Generating Abridged Versions of English Literature
标题:AbLit:分析和生成英文文献删节版的资源
作者:Melissa Roemmele, Kyle Shaffer, Katrina Olsen, Yiyi Wang, Steve DeNeefe
文章链接:https://arxiv.org/abs/2302.06579v1
项目代码:https://github.com/roemmele/ablit
摘要:
创建文本的删节版本涉及缩短文本,同时保持其语言质量。在本文中,我们首次从 NLP 的角度审视了这项任务。我们提供了一种新资源 AbLit,它源自英文文学书籍的删节版。该数据集捕获原始文本和删节文本之间的段落级对齐。我们描述了这些对齐的语言关系,并创建了自动化模型来预测这些关系以及为新文本生成删节。我们的研究结果表明删节是一项具有挑战性的任务,可以激发未来的资源和研究。