受压缩感知启发,斯坦福 AI 研究院提出新的无监督表示学习框架!

简介: 非确定性自编码器!

雷锋网(公众号:雷锋网) AI 科技评论按:如今,说到图像领域的生成式模型,大家往往会想到对抗生成网络(GAN)和自编码器(AE)。本文介绍了斯坦福 AI 研究院的研究人员如何从统计压缩感知技术中汲取灵感设计出的非确定性自编码器(该编码器在自编码器的潜在空间中对不确定性进行建模),并巧妙地使用变分技术为其设计目标函数,相较于传统方法,该模型的性能有巨大的提升。斯坦福 AI 研究院将这一成果进行了介绍,雷锋网 AI 科技评论编译如下。

压缩感知技术能够通过低维投影有效地采集和恢复稀疏的高维数据信号。 我们在 AISTATS 2019发表的一篇论文(https://arxiv.org/pdf/1812.10539)中提出了非确定性自编码器(UAE),把低维投影作为自编码器的带噪声的潜在表示,并通过一个可跟踪的变分信息最大化目标直接对信号采样(即编码)和逐步恢复(即解码)的过程进行学习。实验表明,我们在高维数据的统计压缩感知任务中相较于其他方法的性能平均提高了 32% 。

无监督表示学习的广泛目标是学习对输入的数据进行变换,从而简便地捕获到数据分布统计的根本特性。在之前的工作中,研究人员已经从潜变量生成建模、降维和其他角度出发,提出了大量的学习目标和算法。在本文中,我们将介绍一个受压缩感知启发而设计出的新的无监督表示学习框架。首先,我们将从统计压缩感知谈起。

统计压缩感知

能够高效地采集和精确地恢复高维数据的系统构成了压缩感知的基础。这些系统得到了广泛的应用。例如,压缩感知技术已经被成功地用于了包括「设计节能的单像素摄像头」和「加快核磁共振医学成像扫描时间」在内的广泛的应用领域。

TB1d3z6doGF3KVjSZFvXXb_nXXa.jpg

压缩感知的工作流程由两部分组成:

采集(acquisition):一个从高维信号

TB1MY2.dlCw3KVjSZFlXXcJkFXa.jpg

到测量数据

TB1QP23df1H3KVjSZFBXXbSMXXa.jpg

的映射

TB1pXn4dfWG3KVjSZFgXXbTspXa.jpg TB1okr7dkWE3KVjSZSyXXXocXXa.jpg

其中 ϵ 代表测量过程中任意的外部噪声。当 m 远小于 n 时,我们称采集过程是高效的。

恢复(recovery):一个从测量数据 y 到恢复的数据信号

TB1fln7dlWD3KVjSZKPXXap7FXa.jpg

的映射

TB1j224dfWG3KVjSZPcXXbkbXXa.jpg

。当归一化损失(例如

TB1zKf4df5G3KVjSZPxXXbI3XXa.jpg

)很小时,恢复的过程是精确的。

在标准的压缩感知过程中,采集映射 f 在 x 中是典型的线性变换(即对于某个矩阵 

TB1Def4df5G3KVjSZPxXXbI3XXa.jpg

, f(x)=Wx)。在这样的情况下,由于我们拥有的变量数(n)比常量数(m)多,所以该系统是未确定的。为保证得到唯一的、有意义的恢复结果,我们假设信号在一个合适的基上(例如,用于音频数据的傅里叶基、用于图像数据的小波基)是稀疏的。然后,通过某些类型的随机矩阵进行信号采集,并通过求解 LASSO 优化方法进行信号恢复,这样便只需使用少量测量数据(大概是数据维度的对数)就能保证以很高的概率得到唯一的恢复结果。

在这项工作中,我们考虑统计压缩感知的情况,其中我们可以访问一个训练数据信号 x 的数据集 D。我们假设对于某些未知的数据分布  q_data,有

TB1H1f4df5G3KVjSZPxXXbI3XXa.jpg

在训练时:

1. 自然环境向智能体提供一个有限的高维信号数据集 D。

2. 智能体通过优化一个恰当的目标来学习信号采集和恢复的映射 f 和 g。

在测试时:

1.对于一个或多个测试信号

TB1H1f4df5G3KVjSZPxXXbI3XXa.jpg

而言,自然环境向智能体提供压缩后的测量数据

TB1HFv6df1G3KVjSZFkXXaK4XXa.jpg

2.智能体恢复出信号

TB1dt3bdbus3KVjSZKbXXXqkFXa.jpg

,并引入一个L2 范数损失

TB1fT67dlaE3KVjSZLeXXXsSFXa.jpg

为了实现这个过程,智能体的任务是选取信号采集和恢复的映射 f 和 g,从而最小化测试损失。

非确定性自编码器

实际上,在仅仅根据测量数据 y 恢复出信号 x 时,即使智能体可以选出一个信号采集映射 f,仍有两个不确定性的来源。其一是由于随机的测量噪声 ϵ 引起的。其次,信号采集映射 f 通常被参数化为一个精度有限的受限映射族

TB1lpr4dfWG3KVjSZFgXXbTspXa.jpg

(例如,在标准压缩感知中的线性映射或更一般化的神经网络)。假设测量数据 y 的维度比信号 x 的维度要小,即使没有噪声,这样的限制也会阻碍我们学到一个双射映射。

在 f 为线性映射的说明样例中,我们确信不可能实现完全精确的恢复。那么还有什么高效的方式来采集数据呢?在下图中,我们考虑了一个真实数据分布是由两个沿正交方向延伸的二维高斯分布的混合分布的简单情况。我们从这个混合分布中采样出了 100 个点(黑色的点),并考虑了两种将这些数据点的维数降低到一维的方法。

TB1Oin4doWF3KVjSZPhXXXclXXa.jpg

第一种方法是使用主成分分析(PCA)将数据沿着最能导致数据中的变化的方向进行投影。对于上述的二维混合高斯分布的情况,这种方法是通过洋红色线上的蓝点表示的。这条洋红色的线捕获了数据中大部分的变化,但是它将从右下角的高斯分布中采样得到的数据压缩到了一个狭窄的区域中。当多个数据点在低维空间被压缩成重叠的、密集的聚类区域时,在恢复(recovery)过程中就很难消除低维投影与原始数据点之间的关联。

或者,我们可以考虑在绿色的坐标轴上投影(红色的点)。这些投影结果更加分散,这表明恢复过程更加容易(即使与 PCA 相比,这样做会增加投影空间的总方差)。接下来,我们提出了「UAE」框架,它能够精确地学习上面提到的低维投影,使恢复更加准确。

从概率意义上说,信号 x 和测量数据 y 的联合分布可以表示为

TB1uVr4dfWG3KVjSZFgXXbTspXa.jpg

。例如,如果我们将噪声建模为中心各向同性高斯分布,那么似然概率

TB14H6.dlCw3KVjSZFlXXcJkFXa.jpg

就可以被表示为

TB1Ou24doGF3KVjSZFmXXbqPXXa.jpg

。为了学习在存在不确定性的情况下最有利于恢复的参数

TB1Jpr4dfWG3KVjSZFgXXbTspXa.jpg

,我们考虑下面的目标函数:

TB1Yu24doGF3KVjSZFmXXbqPXXa.jpg

上面的目标函数最大化了从测量数据 y 中恢复出信号 x 的对数后验概率,这与上面提到的智能体在测试时的目标是一致的。

变分信息最大化

或者,你可以将上述过程解释为最大化信号 x 和测量数据 y 之间的互信息。为了查看二者之间的联系,请注意数据熵 H(x) 是一个常量,它不会影响优化过程。因此,我们可以将目标函数改写为:

TB1Jlr7dlWD3KVjSZKPXXap7FXa.jpg

遗憾的是,在当前的情况下,估计(和优化)互信息是十分困难和棘手的。为了克服这个困难,同时也能快速地进行恢复,我们建议使用一个互信息变分下界的平摊变体。

特别地,我们考虑一个真实后验概率

TB17oQvX3FY.1VjSZFnXXcFHXXa.jpg

的参数化的变分近似

TB19_L6douF3KVjSZK9XXbVtXXa.jpg

。在这里,

TB1Gpz.dlKw3KVjSZFOXXarDVXa.jpg

表示变分参数。将这个近似带入变分分布会给出如下所示的原始目标函数的变分下界:

 

TB1oe64doGF3KVjSZFmXXbqPXXa.jpg

上面的表达式定义了非确定性自编码器的学习目标,其中数据采集过程可以被看作对数据信号进行编码,而恢复过程则相当于根据测量数据解码出数据信号。

案例分析

实际上,「UAE」目标函数的期望值是通过蒙特卡洛方法来估计的:数据信号 x 是从训练数据集 D 中采样得到的,测量数据 y 是从一个允许重参数化的假设的噪声模型(各向同性的高斯分布)中采样得到的。根据对恢复过程的准确度的度量,我们可以在平摊变分分布

TB1pIj5dliE3KVjSZFMXXbQhVXa.jpg

(例如,方差固定为 l2,拉普拉斯算子固定为 l1 的高斯分布)上做出分布假设,并通过恢复映射 

TB1N8gvX3FY.1VjSZFqXXadbXXa.jpg

 将测量数据 y 映射到 

TB1xIj5dliE3KVjSZFMXXbQhVXa.jpg

的充分统计量上。

举例来说,不妨考虑一个带有已知的标量方差

TB1OLz4doKF3KVjSZFEXXXExFXa.jpg

的各向同性的高斯噪声模型

TB19Fr6dlOD3KVjSZFFXXcn9pXa.jpg

。如果我们令变分分布

TB1pIj5dliE3KVjSZFMXXbQhVXa.jpg

 也为一个带有固定的标量方差的各向同性高斯分布,我们将通过非确定性自编码器(UAE)得到如下所示的最大化目标函数:

TB1I5H4dfWG3KVjSZFPXXXaiXXa.jpg

其中 c 为独立于 φ 和 θ 的正归一化常数。

非确定性自编码器 VS 常用的自编码器

除了对统计压缩感知的提升,非确定性自编码器(UAE)为无监督表示学习提供了一种替代框架,其中压缩的测量值可以被解释为潜在的表示。下面,我们将讨论 UAE 与常用的自编码器在计算方法上有何异同。

标准的自编码器(AE):当潜在空间中没有任何的噪声时,UAE 的学习目标函数就会退化为 AE 的目标函数。

去躁自编码器(DAE):DAE 在观测空间中添加噪声(例如,向数据信号添加噪声),然而 UAE 则是在潜在空间中对不确定性建模。

变分自编码器(VAE):变分自编码器将潜在空间正则化,使其遵循一个先验分布。而在 UAE 中则没有显式的先验,因此在潜在空间上没有 KL 散度正则项(而原始论文中没有对此进行讨论,UAE 的目标函数可以看做 β=0 时的 β-VAE 的特例)。这样就避免了使用 VAE 使存在的问题:使用强大的解码器会忽略潜在的表示。

那么 UAE 是否能像 DAE 和 VAE 那样,可以进行样本外的泛化呢?答案是肯定的!在恰当的假设下,我们说明了 UAE 学到了一个隐式的数据信号分布的生成模型,它可以被用来定义一个马尔科夫链蒙特卡洛(MCMC)采样。更多细节请参阅论文「Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization」(https://arxiv.org/pdf/1812.10539.pdf)中的定理 1 和推论 1。

TB1eDReaLBj_uVjSZFpXXc0SXXa.jpg

基于 UAE 的用于 q_data 的马尔科夫链采样器示意图。

实验结果概述

我们展示出了一些在下面的图像数据集上进行统计压缩感知的实验结果。在这些实验中,测量数据的个数 m 会变化,并且使用了随机高斯噪声。我们与两种基线进行了对比:

适当的稀疏性诱导基础上的 LASSO

CS-VAE/DCGAN,这是一种最近提出来的压缩感知方法,它通过搜索预训练的生成模型(如 VAE 和 GAN)的潜在空间来寻找潜在向量,从而使恢复损失最小。

MNIST

TB1fpD.dlKw3KVjSZFOXXarDVXa.jpg

测量数据个数 m 变化时的测试的 l2 重建误差(每张图像)

TB17K64doGF3KVjSZFmXXbqPXXa.jpg

测量值的个数为 m=25 时的重建结果。

CelebA

TB14xj3df1H3KVjSZFHXXbKppXa.jpg

测量数据个数 m 变化时的测试的 l2 重建误差(每张图像)

TB1Uf64dgKG3KVjSZFLXXaMvXXa.jpg

测量值的个数为 m=50 时的重建结果。

平均而言,我们观察到,对于所有的数据集和测量值来说,我们取得了 32% 的提升。关于在更多的数据集上的实验结果,以及将 UAE 应用到迁移学习和监督学习中的任务,请参阅我们的论文:

「Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization」Aditya Grover, Stefano Ermon. AISTATS, 2019。

论文下载地址:https://arxiv.org/pdf/1812.10539 

代码:https://github.com/aditya-grover/uae

via http://ai.stanford.edu/blog/uncertainty-autoencoders/  雷锋网

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持多角色控制和精确布局控制,适用于漫画创作、个性化内容生成等多个领域。
41 17
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
|
4天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
56 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
5天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
33 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
5天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
57 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
7天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
46 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
10天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 框架基础介绍
本文介绍了AI算法、神经网络及其应用,解释了为何神经网络需要训练及AI框架的作用。通过解析深度学习的数学原理与反向求导算法,阐述了AI框架如何作为模型设计、训练和验证的标准工具,支持算法封装、数据调用及计算资源管理,强调了AI框架的发展历程和技术迭代。
41 9
【AI系统】AI 框架基础介绍
|
8天前
|
机器学习/深度学习 人工智能 算法
【AI系统】框架编程范式
编程范式是软件工程中一类典型的编程风格,如函数式、命令式、声明式、面向对象等。它们影响着开发者对程序执行的理解。本文探讨了两种主要的编程范式——声明式编程与命令式编程,特别是在AI框架中的应用,如TensorFlow的声明式编程和PyTorch的命令式编程,分析了这两种范式对AI框架架构设计的影响及主流AI框架在这两种范式上的差异。
33 3
【AI系统】框架编程范式
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI系统】AI 框架作用
深度学习通过多层计算模型学习数据中的复杂结构,实现高级别的数据抽象。例如,CNN能从大量图像中学习猫和狗的特征。本文探讨深度学习原理及其计算中AI框架的应用,强调AI框架如何帮助自动求导,简化模型训练过程,以及在实际应用中的作用。
32 3
【AI系统】AI 框架作用
|
14天前
|
机器学习/深度学习 人工智能 编解码
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
OminiControl 是一个高度通用且参数高效的 AI 图像生成框架,专为扩散变换器模型设计,能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数(0.1%),支持主题驱动控制和空间对齐控制,适用于多种图像生成任务。
59 10
OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制
|
12天前
|
SQL 存储 人工智能
Vanna:开源 AI 检索生成框架,自动生成精确的 SQL 查询
Vanna 是一个开源的 Python RAG(Retrieval-Augmented Generation)框架,能够基于大型语言模型(LLMs)为数据库生成精确的 SQL 查询。Vanna 支持多种 LLMs、向量数据库和 SQL 数据库,提供高准确性查询,同时确保数据库内容安全私密,不外泄。
73 7
Vanna:开源 AI 检索生成框架,自动生成精确的 SQL 查询