每日学术速递2.9

简介: 归纳式单比特矩阵完成法是由现代应用所激发的,如推荐系统,新用户会在测试阶段出现,其评分只由1而没有0组成。我们提出了一个统一的图信号采样框架,它享有图信号分析和处理的好处。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV、cs.AI、cs.LG、cs.IR


1.Graph Signal Sampling for Inductive One-Bit Matrix Completion: a Closed-form Solution(ICLR 2023)


ec59bd54261627920e747f8fd3bd1009.png


标题:归纳单比特矩阵完成的图信号采样:一个闭式解决方案

作者:Chao Chen, Haoyu Geng, Gang Zeng, Zhaobing Han, Hua Chai, Xiaokang Yang, Junchi Yan

文章链接:https://arxiv.org/abs/2302.03933v1(

项目代码:https://github.com/cchao0116/GSIMC-ICLR2023

e1041c5332936120902997c067b54daa.png

95767ff43f255db26cd0e70fa91cf19f.png

摘要:

       归纳式单比特矩阵完成法是由现代应用所激发的,如推荐系统,新用户会在测试阶段出现,其评分只由1而没有0组成。我们提出了一个统一的图信号采样框架,它享有图信号分析和处理的好处。其关键思想是将每个用户对项目的评分转化为项目-项目图顶点上的函数(信号),然后学习结构图属性,从某些顶点上的数值恢复函数--这就是图信号采样的问题。我们提出了一类考虑到图顶点域中离散随机标签噪声的正则化函数,然后开发了GS-IMC方法,该方法使重建偏向于相邻顶点之间变化不大的函数,以减少噪声。理论结果表明,在温和条件下可以实现精确的重建。对于在线设置,我们开发了一个贝叶斯扩展,即BGS-IMC,它考虑了图形傅里叶域中的连续随机高斯噪声,并建立在预测-校正更新算法之上,以获得无偏和最小方差的重建。GS-IMC和BGS-IMC都有封闭式的解决方案,因此在大数据中具有高度的可扩展性。实验表明,我们的方法在公共基准上取得了最先进的性能。

Inductive one-bit matrix completion is motivated by modern applications such as recommender systems, where new users would appear at test stage with the ratings consisting of only ones and no zeros. We propose a unified graph signal sampling framework which enjoys the benefits of graph signal analysis and processing. The key idea is to transform each user's ratings on the items to a function (signal) on the vertices of an item-item graph, then learn structural graph properties to recover the function from its values on certain vertices -- the problem of graph signal sampling. We propose a class of regularization functionals that takes into account discrete random label noise in the graph vertex domain, then develop the GS-IMC approach which biases the reconstruction towards functions that vary little between adjacent vertices for noise reduction. Theoretical result shows that accurate reconstructions can be achieved under mild conditions. For the online setting, we develop a Bayesian extension, i.e., BGS-IMC which considers continuous random Gaussian noise in the graph Fourier domain and builds upon a prediction-correction update algorithm to obtain the unbiased and minimum-variance reconstruction. Both GS-IMC and BGS-IMC have closed-form solutions and thus are highly scalable in large data. Experiments show that our methods achieve state-of-the-art performance on public benchmarks.

2.Geometric Perception based Efficient Text Recognition

fdca6b17083d67fa96ff33839306db36.png

标题:基于几何感知的高效文本识别

作者:P. N. Deelaka, D. R. Jayakodi, D. Y. Silva

文章链接:https://arxiv.org/abs/2302.03873v1

项目代码:https://github.com/ACRA-FL/GeoTRNet

bb077d4361e1abb7060613dbea2ef83a.png

5b5575219672caa36000ec64d9c42447.png

摘要:

       每个场景文本识别(STR)任务都由文本定位和文本识别作为主要子任务。然而,在现实世界中具有固定摄像头位置的应用中,如设备显示器读取、基于图像的数据输入和印刷文件数据提取,其基础数据往往是普通的场景文本。因此,在这些任务中,使用通用的、庞大的模型与定制的、高效的模型相比,在模型的可部署性、数据隐私和模型的可靠性方面存在明显的缺点。因此,本文介绍了开发模型的基本概念、理论、实现和实验结果,这些模型针对任务本身高度专业化,不仅实现了SOTA性能,而且具有最小的模型权重、更短的推理时间和高的模型可靠性。我们介绍了一个新的深度学习架构(GeoTRNet),它被训练来识别普通场景图像中的数字,只使用现有的几何特征,模仿人类对文本识别的感知。

Every Scene Text Recognition (STR) task consists of text localization & text recognition as the prominent sub-tasks. However, in real-world applications with fixed camera positions such as equipment monitor reading, image-based data entry, and printed document data extraction, the underlying data tends to be regular scene text. Hence, in these tasks, the use of generic, bulky models comes up with significant disadvantages compared to customized, efficient models in terms of model deployability, data privacy & model reliability. Therefore, this paper introduces the underlying concepts, theory, implementation, and experiment results to develop models, which are highly specialized for the task itself, to achieve not only the SOTA performance but also to have minimal model weights, shorter inference time, and high model reliability. We introduce a novel deep learning architecture (GeoTRNet), trained to identify digits in a regular scene image, only using the geometrical features present, mimicking human perception over text recognition.

3.Neural Artistic Style Transfer with Conditional Adversaria

87cc83c1fa522747c3e83c9da5e568f9.png

标题:有条件对抗性的神经艺术风格转移

作者:P. N. Deelaka

文章链接:https://arxiv.org/abs/2302.03875v1

项目代码:https://github.com/nipdep/STGAN

0eaff061e7f8c70c4f567d2bdfe6d682.png

cd158873540ea5a9e9bae0661d11e2ae.png

51245b0399970aa1f38653b5d4199b14.png

摘要:

       一个神经艺术风格转换(NST)模型可以通过添加著名图像的风格来修改简单图像的外观。即使转换后的图像看起来并不完全像各自风格图像的同一艺术家的艺术作品,但生成的图像还是很吸引人。一般来说,一个训练有素的NST模型专攻一种风格,而单一的图像代表这种风格。然而,在一个新的风格下生成图像是一个繁琐的过程,其中包括完整的模型训练。在本文中,我们提出了两种方法,向风格图像独立的神经风格转移模型迈进。换句话说,经过训练的模型可以在任何内容、风格图像输入对下产生语义准确的生成图像。我们的新贡献是一个单向的GAN模型,它通过模型结构确保了循环一致性。此外,这导致了更小的模型尺寸和有效的训练和验证阶段。

A neural artistic style transformation (NST) model can modify the appearance of a simple image by adding the style of a famous image. Even though the transformed images do not look precisely like artworks by the same artist of the respective style images, the generated images are appealing. Generally, a trained NST model specialises in a style, and a single image represents that style. However, generating an image under a new style is a tedious process, which includes full model training. In this paper, we present two methods that step toward the style image independent neural style transfer model. In other words, the trained model could generate semantically accurate generated image under any content, style image input pair. Our novel contribution is a unidirectional-GAN model that ensures the Cyclic consistency by the model architecture.Furthermore, this leads to much smaller model size and an efficient training and validation phase.

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
140 0
每日学术速递4.3
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
107 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
138 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
186 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
110 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
127 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
139 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
121 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
105 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
125 0
下一篇
无影云桌面