每日学术速递2.4

简介: 我们引入了神经符号持续学习,在这种情况下,一个模型必须解决一连串的神经符号任务,也就是说,它必须将亚符号输入映射到高级概念,并通过与先前知识一致的推理来计算预测。我们的关键观察是,神经符号任务虽然不同,但往往共享概念,其语义随着时间的推移保持稳定。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.LG、cs.AI


1.Neuro Symbolic Continual Learning: Knowledge, Reasoning Shortcuts and Concept Rehearsal


9759af27a0c9e149d48a50e435db153c.png


标题:神经象征性的持续学习:知识、推理捷径和概念排练


作者:Emanuele Marconato, Gianpaolo Bontempo, Elisa Ficarra, Simone Calderara, Andrea Passerini, Stefano Teso

文章链接:https://arxiv.org/abs/2302.01242v1

项目代码:https://github.com/ema-marconato/nesy-cl

796cfc04830905f31e6901257cf0bc29.png

cb5bcf9746b941b7429fbd924247f170.png


摘要:

       我们引入了神经符号持续学习,在这种情况下,一个模型必须解决一连串的神经符号任务,也就是说,它必须将亚符号输入映射到高级概念,并通过与先前知识一致的推理来计算预测。我们的关键观察是,神经符号任务虽然不同,但往往共享概念,其语义随着时间的推移保持稳定。传统的方法有不足之处:现有的持续策略完全忽略了知识,而库存的神经符号架构则遭受了灾难性的遗忘。我们表明,通过将神经符号架构与持续策略相结合来利用先前的知识确实有助于避免灾难性遗忘,但这样做也会产生受推理捷径影响的模型。这些会破坏所获得的概念的语义,即使是在前期提供了详细的先验知识并且推理准确的情况下,也会反过来破坏持续的性能。为了克服这些问题,我们介绍了COOL,一个为神经符号持续问题量身定做的概念级持续学习策略,它可以获得高质量的概念并随着时间的推移记住它们。我们在三个新的基准上的实验强调了COOL是如何在其他策略失败的情况下在神经符号持续学习任务上获得持续的高性能。

We introduce Neuro-Symbolic Continual Learning, where a model has to solve a sequence of neuro-symbolic tasks, that is, it has to map sub-symbolic inputs to high-level concepts and compute predictions by reasoning consistently with prior knowledge. Our key observation is that neuro-symbolic tasks, although different, often share concepts whose semantics remains stable over time. Traditional approaches fall short: existing continual strategies ignore knowledge altogether, while stock neuro-symbolic architectures suffer from catastrophic forgetting. We show that leveraging prior knowledge by combining neuro-symbolic architectures with continual strategies does help avoid catastrophic forgetting, but also that doing so can yield models affected by reasoning shortcuts. These undermine the semantics of the acquired concepts, even when detailed prior knowledge is provided upfront and inference is exact, and in turn continual performance. To overcome these issues, we introduce COOL, a COncept-level cOntinual Learning strategy tailored for neuro-symbolic continual problems that acquires high-quality concepts and remembers them over time. Our experiments on three novel benchmarks highlights how COOL attains sustained high performance on neuro-symbolic continual learning tasks in which other strategies fail.

2.STEPS: Joint Self-supervised Nighttime Image Enhancement and Depth Estimation

1a4141a43e6888dadf309344fc896a89.png

标题:STEPS:联合自我监督的夜间图像增强和深度评估

作者:Yupeng Zheng, Chengliang Zhong, Pengfei Li, Huan-ang Gao, Yuhang Zheng, Bu Jin, Ling Wang, Hao Zhao, Guyue Zhou, Qichao Zhang, Dongbin Zhao

文章链接:https://arxiv.org/abs/2302.01334v1

项目代码:https://github.com/ucaszyp/steps

d483e8297d634280fd39c8eb126ee399.png

20cd55862fda41289e716244ef7be4d9.png

摘要:

       自监督深度估计最近引起了很多关注,因为它可以促进自动驾驶车辆的三维传感能力。然而,它本质上依赖于光度测量的一致性假设,而这一假设在夜间很难成立。尽管各种有监督的夜间图像增强方法已经被提出,但它们在具有挑战性的驾驶场景中的通用性能并不令人满意。为此,我们提出了第一个联合学习夜间图像增强器和深度估计器的方法,这两个任务都不需要使用地面真相。我们的方法使用新提出的不确定像素遮蔽策略,将两个自我监督的任务紧密地纠缠在一起。这一策略源于这样的观察:夜间图像不仅存在曝光不足的区域,也存在曝光过度的区域。通过对照度图分布进行桥形曲线拟合,这两个区域都得到了抑制,两个任务也就自然衔接起来。我们在两个既定的数据集上对该方法进行了基准测试:NuScenes和RobotCar,并在这两个数据集上展示了最先进的性能。详细的消融也揭示了我们建议的机制。最后但并非最不重要的是,为了缓解现有数据集稀疏的地面真相问题,我们提供了一个基于CARLA的新的照片逼真的夜间数据集。它给社区带来了有意义的新挑战。

Self-supervised depth estimation draws a lot of attention recently as it can promote the 3D sensing capabilities of self-driving vehicles. However, it intrinsically relies upon the photometric consistency assumption, which hardly holds during nighttime. Although various supervised nighttime image enhancement methods have been proposed, their generalization performance in challenging driving scenarios is not satisfactory. To this end, we propose the first method that jointly learns a nighttime image enhancer and a depth estimator, without using ground truth for either task. Our method tightly entangles two self-supervised tasks using a newly proposed uncertain pixel masking strategy. This strategy originates from the observation that nighttime images not only suffer from underexposed regions but also from overexposed regions. By fitting a bridge-shaped curve to the illumination map distribution, both regions are suppressed and two tasks are bridged naturally. We benchmark the method on two established datasets: nuScenes and RobotCar and demonstrate state-of-the-art performance on both of them. Detailed ablations also reveal the mechanism of our proposal. Last but not least, to mitigate the problem of sparse ground truth of existing datasets, we provide a new photo-realistically enhanced nighttime dataset based upon CARLA. It brings meaningful new challenges to the community. Codes, data, and models are available at this https URL.

3.GraphReg: Dynamical Point Cloud Registration with Geometry-aware Graph Signal Processing


6d1c696a7870f0c815f0a86fa61479d1.png

标题:GraphReg:利用几何感知的图形信号处理进行动态点云注册

作者:  Zhao Mingyang, Ma Lei, Jia Xiaohong, Yan Dong-Ming, Huang Tiejun

文章链接:https://arxiv.org/abs/2301.12689v1

项目代码:https://github.com/zikai1/graphreg

5dc6e6cb195e4d617dd4a090930870b4.png

537690d7636df194b035fea5db930d05.png

摘要:

       本研究提出了一种高精度、高效率和物理诱导的三维点云注册方法,这是许多重要的三维视觉问题的核心。与现有的仅仅考虑空间点信息而忽视表面几何的基于物理的方法相比,我们探索了几何感知的刚体动力学来调节粒子(点)的运动,这导致了更精确和稳健的注册。我们提出的方法由四个主要模块组成。首先,我们利用图形信号处理(GSP)框架来定义一个新的签名,(即每个点的点响应强度),通过它我们成功地描述了局部表面的变化,重新采样关键点,并区分不同的粒子。然后,为了解决目前基于物理学的方法对异常值敏感的缺点,我们将定义的点响应强度适应于稳健统计学中的中位绝对偏差(MAD),并采用X84原则进行自适应异常值抑制,确保稳健和稳定的登记。随后,我们提出了一种新的刚性变换下的几何不变性,以纳入点云的高阶特征,这被进一步嵌入到力的建模中,以指导成对扫描之间的可信的对应。最后,我们引入了自适应模拟退火法(ASA)来搜索全局最优,并大大加快了注册过程。我们进行了全面的实验,在从测距仪到LiDAR采集的各种数据集上评估所提出的方法。结果表明,我们提出的方法在精度上优于有代表性的最先进的方法,更适合于注册大规模的点云。此外,它比大多数竞争者要快得多,也更稳健。

This study presents a high-accuracy, efficient, and physically induced method for 3D point cloud registration, which is the core of many important 3D vision problems. In contrast to existing physics-based methods that merely consider spatial point information and ignore surface geometry, we explore geometry aware rigid-body dynamics to regulate the particle (point) motion, which results in more precise and robust registration. Our proposed method consists of four major modules. First, we leverage the graph signal processing (GSP) framework to define a new signature, (i.e., point response intensity for each point), by which we succeed in describing the local surface variation, resampling keypoints, and distinguishing different particles. Then, to address the shortcomings of current physics-based approaches that are sensitive to outliers, we accommodate the defined point response intensity to median absolute deviation (MAD) in robust statistics and adopt the X84 principle for adaptive outlier depression, ensuring a robust and stable registration. Subsequently, we propose a novel geometric invariant under rigid transformations to incorporate higher-order features of point clouds, which is further embedded for force modeling to guide the correspondence between pairwise scans credibly. Finally, we introduce an adaptive simulated annealing (ASA) method to search for the global optimum and substantially accelerate the registration process. We perform comprehensive experiments to evaluate the proposed method on various datasets captured from range scanners to LiDAR. Results demonstrate that our proposed method outperforms representative state-of-the-art approaches in terms of accuracy and is more suitable for registering large-scale point clouds. Furthermore, it is considerably faster and more robust than most competitors.

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
156 0
每日学术速递3.9
|
自然语言处理 计算机视觉
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
116 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
179 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
157 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
159 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
141 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
113 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
124 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
133 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
122 0
下一篇
DataWorks