ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络

简介: ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络


机器之心编辑部

本工作已入选 ICLR 2023 Spotlight,也是 GFlowNets 领域第一篇 Spotlight 文章。

本文介绍关于生成流网络 (Generative Flow Networks) 的一个近期研究工作。在生成流网络 (Generative Flow Networks, GFlowNet) 中,智能体学习一个随机策略进行目标生成,使得生成目标的概率正比于一个奖励函数。然而,GFlowNets 只能依赖于最终状态的奖励信号进行学习,无法考虑中间步骤的奖励,可能对适用性和高效性造成一定的局限。为此,来自 Mila 的图灵奖得主 Yoshua Bengio 教授团队创新得提出了生成拓展流网络,在 GFlowNets 中引入中间奖励信号,以实现更高效的探索和学习。生成拓展流网络在分子生成等任务生展现了巨大的潜力。本工作已入选 ICLR 2023 Spotlight,也是 GFlowNets 领域第一篇 Spotlight 文章。



简介
在生成流网络 (Generative Flow Networks, GFlowNet) 中,智能体学习一个随机策略进行目标生成,使得生成目标的概率正比于一个奖励函数。相比于最大化奖励函数的强化学习方法相比,GFlowNets 在生成高质量且多样性的目标中尤为有效。然而,GFlowNets 只能从最终状态的奖励进行学习,可能会限制其适用性。中间奖励信号在学习中非常重要 —— 例如,可以通过内在激励来产生中间信号使得智能体即使在稀疏奖励的任务中仍然能进行高效的学习。
受此启发,我们提出了生成拓展流网络 (GAFlowNets),创新性得提出了一个新的 GFlowNets 学习框架,将中间奖励信号以拓展流的方式引入其中。并且我们以内在动机作为中间奖励信号以解决稀疏奖励环境中的探索问题。GAFlowNets 以基于边和基于节点的内在奖励联合的方式来提升探索。我们首先在 GridWorld 中进行了广泛的实验,证明了 GAFlowNet 在收敛性、性能和多样性方面的有效性。实验结果进一步表明 GAFlowNet 可以扩展到更复杂和高维的分子生成任务中,并同样带来显著的性能增益。

动机与背景
近年来,深度强化学习取得了重大进展,尤其是在游戏领域。深度强化学习方法通常旨在最大化奖励函数以学习最优策略。然而,生成目标的多样性在广泛的实际场景中是非常重要的,包括分子生成、生物序列设计、推荐系统、 对话系统等。例如,在分子生成中,计算机模拟中使用的奖励函数本身可能不确定且不完善(与更昂贵的体内实验相比)。因此,仅搜索最大化回报的解决方案往往是不足的。因此我们希望对许多具有高奖励的候选结果进行采样,这可以通过以对每个最终状态的回报成比例地对它们进行采样来实现。
图灵奖得主 Yoshua  Bengio 教授在 2021 年提出了生成流网络 (Generative Flow Networks, GFlowNets) 以学习一种随机策略来对目标 进行采样,其采样概率与奖励函数成正比。GFlowNets 的学习范式不同于其他强化学习方法 —— 它明确旨在对目标分布的多样性进行建模。因此,该学习框架对于很多兼顾性能及多样性的实际应用问题非常通用,例如分子生成、生物序列设计等。

然而,GFlowNets 仅能基于最终状态的奖励来学习,而无法考虑中间奖励信号,这会限制其适用性,尤其是在更通用的强化学习问题中。事实上,中间奖励信号在学习中起着至关重要的作用。强化学习的巨大成功也在很大程度上取决于提供了中间反馈的奖励信号。即使在外部奖励信号稀疏的环境中,强化学习智能体也可以通过内在动机激励自己进行有效探索(即每一步在稀疏的外在学习信号上同时考虑密集的内在奖励信号)。

我们在本文中提出了一个新的 GFlowNet 学习框架,该框架能够将中间反馈信号以拓展流的方式考虑在内,以在训练期间提供探索激励。我们首先创新性得提出了基于边的拓展流,在每次状态转移时考虑内在中间奖励。然而,我们发现虽然这种方法提高了学习效率,但是它只进行局部探索,仍然缺乏足够的探索能力。另一方面,我们发现基于节点的拓展流可以进行更广泛的探索,但却可能会导致收敛速度变慢并带来较大的误差。
因此,我们提出了一种联合方法来同时考虑基于边和基于节点的拓展流,同时提升多样性和学习效率。我们在常用的 GridWorld 任务和和分子生成任务中进行了广泛的实验以证实我们提出的框架的有效性。

方法介绍
(一)基于边的拓展流
我们从流匹配一致性的约束开始推导。通过在流守恒原则中考虑从状态转移到下一状态的中间奖励信号,我们得到以下公式,在状态转移中考虑了一个额外的出流


基于上述公式,我们可以定义相对应的前向和后向转移策略


结合上述两个公式,我们可以得到考虑了中间奖励信号的 detailed balance 的流守恒基准


在上述公式的基础上基于连乘,我们可以得到对应的 trajectory balance 的流守恒原则


拓展流语义

基于边的拓展流可以看作是在每个状态转换步骤中引入一个流向伪终止状态的额外的流

在上图中,对于从当前内部状态(黄色圆圈)到第个下一状态的状态转换,我们引入一个特殊的具有伪结束效应的关联的特殊状态 (红色圆圈)。具体而言,根据拓展流的的前向策略,我们在状态以概率选择关联下一状态。在关联的下一状态,我们虚拟的以概率选择汇点,而以概率选择实际的下一状态。因此,考虑到所有可能的下一个状态,我们即得到拓展流的一致性方程。中间奖励信号类似于过渡到一个从未被采用但仍然吸引更大概率进入其祖先节点的伪出口。

在实际任务中,我们发现基于边的拓展流网络与 GFlowNet 相比,能够提升多样性并且能更有效的减少生成分布的 L1 误差。然而,它仍旧无法发现所有 mode。

(二)联合拓展流
与基于边的拓展流不同,Yoshua Bengio 教授等人在 2021 年提出可以将轨迹回报定义为基于状态的中间奖励之和,如下公式所示



然而,它明确地改变了潜在的目标概率分布,并且会被轨迹长度影响。因此,这会导致收敛速度变慢。

如上所述,基于节点的拓展流在提高多样性方面是非常有效的,但不能有效地适应目标分布。另一方面,基于边的拓展流方式的收敛性更好,但缺乏充分的探索能力,无法挖掘所有可能的 modes。因此,我们在本文中提出了一种联合方法,将基于节点和基于边的拓展流考虑在内,以实现最佳平衡及效果,如下公式所示

具体来说,我们将轨迹回报重新定义为最终奖励和最终状态的内在奖励之和。另一方面,我们根据基于边的拓展流考虑内部状态的内在奖励。这种联合的方式继承了基于节点和基于边的拓展流的优点,使其在更有效地学习的同时以更全局的方式改进探索。

理论分析
在定理 1 中,我们理论证明我们提出的方式能够渐近地保证解是无偏的。


实验
我们进行了充分的实验以分析我们方法的有效性,并研究了以下关键问题:i)GAFlowNet 与以前的基线算法相比效果如何?ii) 基于节点和边的拓展流、内在奖励机制的形式和关键超参数的影响是什么?iii) 我们的方法可以扩展到更大规模和更复杂的任务吗?

(一)GridWorld
如下图所示,我们的方法(GAFlowNet)在不同规模的 GridWorld 任务中相比于基线算法 GFlowNet, MCMC, PPO 都有显著的提升,包括 L1 误差以及找到的 mode 的个数。


下图展示了我们的方法能够找到该任务的奖励函数中的所有 modes,而原始的 GFlowNet(基于 trajectory balance 的方式)会陷入局部最优。


我们提出的方法论是通用的,可以用于不同的 GFlowNet 目标中(包括 Flow Matching 和通用且高效的 Detailed Balance 中)。


值得注意的是,我们的方法在密集奖励函数的情况下仍然非常有效。


(二)分子生成
我们考虑了更具有挑战性且更高维的分子生成任务,并在性能和多样性方面研究我们的方法。下图 (b) 展示了每种方法生成的前 10 个分数最高的分子的平均奖励。下图 (c) 总结了每种方法发现的奖励高于 7.5 的模式数量。我们下图 (d) 中对前 10 个样本计算平均 Tanimoto 相似度。

如图所示,MARS 在给定稀疏奖励的情况下表现不佳,因为大多数奖励信号都没有提供有效的信息。另一方面,PPO 相比 MARS 更善于找到更高质量的解决方案,但两者都受到结果高度相似性的影响。GFlowNet 更擅长发现更多样化的分子,但在解决方案质量方面表现不佳。GAFlowNet 在性能和多样性方面明显优于基线方法,并能够有效地生成多样化和高质量的分子,这证明了一致且显着的性能改进。


总结
在本文中,我们提出了一个新的学习框架 GAFlowNet,在 GFlowNet 中纳入中间奖励信号。我们通过内在动机指定中间奖励,以解决 GFlowNets 的高效探索及学习问题。我们进行了广泛的实验来评估 GAFlowNets 的有效性,它在多样性、收敛性和性能方面明显优于基线算法,并可以扩展到分子生成等复杂任务。

参考文献
[1] Bengio, E., Jain, M., Korablyov, M., Precup, D., & Bengio, Y. (2021). Flow network based generative models for non-iterative diverse candidate generation. NeurIPS 2021.[2] Bengio, Y., Lahlou, S., Deleu, T., Hu, E. J., Tiwari, M., & Bengio, E. (2021). GFlowNet foundations. arXiv preprint arXiv:2111.09266.[3] Pan, L., Zhang, D., Courville, A., Huang, L., & Bengio, Y. (2023). Generative Augmented Flow Networks. ICLR 2023.[4] Pan, L., Malkin, N., Zhang, D., & Bengio, Y. (2023). Better training of gflownets with local credit and incomplete trajectories. ICML 2023.


相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
【2月更文挑战第17天】ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
189 2
ICLR 2024 Spotlight:训练一个图神经网络即可解决图领域所有分类问题!
|
6月前
|
机器学习/深度学习 算法
ICLR 2024 Oral:用巧妙的传送技巧,让神经网络的训练更加高效
【5月更文挑战第21天】ICLR 2024 Oral 提出了一种名为“传送”的新方法,利用参数对称性提升神经网络训练效率。该方法通过参数变换加速收敛,改善泛化能力,减少了训练所需的计算资源和时间。研究显示,传送能将模型移到不同曲率的极小值点,可能有助于泛化。论文还探讨了将传送应用于元学习等优化算法的潜力,但对传送加速优化的确切机制理解尚不深入,且实际应用效果有待更多验证。[论文链接](https://openreview.net/forum?id=L0r0GphlIL)
64 2
|
6月前
|
域名解析 负载均衡 网络协议
阿里云基础设施网络研发团队参与论文获得CCS 2023 杰出论文奖
阿里云基础设施网络研发团队参与论文获得CCS 2023 杰出论文奖
|
6月前
|
机器学习/深度学习 存储 人工智能
一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法
【4月更文挑战第19天】北京大学林宙辰团队在深度学习领域取得突破,提出基于一阶优化算法的神经网络设计方法,构建具有万有逼近性质的模型,提升训练速度和泛化能力。该方法利用一阶导数信息,高效处理大规模问题。虽然面临非光滑优化和收敛速度挑战,但团队通过正则化和自适应学习率等策略进行改进,相关研究在多个标准数据集上表现出色。
86 1
|
6月前
|
机器学习/深度学习 存储 设计模式
架构设计新范式!RevCol:可逆的多 column 网络式,已被ICLR 2023接收
架构设计新范式!RevCol:可逆的多 column 网络式,已被ICLR 2023接收
98 0
|
机器学习/深度学习 算法 数据可视化
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
|
8天前
|
存储 安全 算法
网络安全与信息安全:漏洞、加密技术及安全意识的重要性
如今的网络环境中,网络安全威胁日益严峻,面对此类问题,除了提升相关硬件的安全性、树立法律法规及行业准则,增强网民的网络安全意识的重要性也逐渐凸显。本文梳理了2000年以来有关网络安全意识的研究,综述范围为中国知网中篇名为“网络安全意识”的期刊、硕博论文、会议论文、报纸。网络安全意识的内涵是在“网络安全”“网络安全风险”等相关概念的发展中逐渐明确并丰富起来的,但到目前为止并未出现清晰的概念界定。此领域内的实证研究主要针对网络安全意识现状与问题,其研究对象主要是青少年。网络安全意识教育方面,很多学者总结了国外的成熟经验,但在具体运用上仍缺乏考虑我国的实际状况。 内容目录: 1 网络安全意识的相关
|
2天前
|
SQL 安全 算法
网络安全与信息安全:漏洞、加密与意识的交织
【10月更文挑战第35天】在数字化时代,网络安全不再是可选项,而是每个网民的必修课。本文旨在深入探讨网络安全的核心要素,包括常见的安全漏洞、先进的加密技术以及不可或缺的安全意识。通过分析这些方面,我们将揭示如何保护个人和组织免受网络攻击的策略,同时提供实用的代码示例,以增强读者的实践能力。文章将引导您思考如何在日益复杂的网络环境中保持警惕,并采取积极措施以确保数据的安全。
13 4
|
1天前
|
SQL 安全 网络安全
网络安全与信息安全:漏洞、加密与安全意识的交织
在数字化时代,网络安全和信息安全的重要性日益凸显。本文深入探讨了网络安全漏洞、加密技术以及安全意识等关键要素,分析了它们之间的相互作用和对维护网络安全的影响。通过实例和代码示例,揭示了网络攻击的常见手段,展示了如何利用加密技术保护数据,以及提升个人和组织的安全意识。本文旨在为读者提供有价值的信息和建议,帮助在复杂的网络环境中更好地保护自己的数字资产。
|
3天前
|
监控 安全 网络安全
企业网络安全:构建高效的信息安全管理体系
企业网络安全:构建高效的信息安全管理体系
22 5
下一篇
无影云桌面