利用概率学实现组合优化层,新研究构建Julia开源包InferOpt.jl

简介: 利用概率学实现组合优化层,新研究构建Julia开源包InferOpt.jl

从概率学的角度实现 CO 层,有助于构建近似微分和结构化损失函数。

机器学习 (ML) 和组合优化 (CO) 是现代工业流程的两个重要组成部分。ML 方法能从嘈杂的数据中提取有意义的信息,而 CO 可以在高维受限环境中做出决策。在许多情况下,我们希望将这两种工具结合使用,例如从数据中生成预测,然后使用这些预测做出优化决策。因此,混合 ML-CO pipeline 成为一个新兴的研究方向。


然而这里存在两个问题。首先,CO 问题的解通常表现为其目标参数的分段常函数,而 ML pipeline 通常使用随机梯度下降进行训练,因此斜率是非常关键的。其次,标准的 ML 损失在组合环境中效果不佳。

此外,组合优化层(CO 层)往往缺乏良好的实现。近日一项新研究从概率学的角度提出了实现 CO 层的方法,有助于近似微分和结构化损失的构建。


论文地址:https://arxiv.org/abs/2207.13513

基于这种思路,该研究提出了一个开源的 Julia 包——InferOpt.jl,它的功能包括:

  • 允许将任何具有线性目标函数的 CO oracle 转换为可微层;
  • 定义损失函数来训练包含可微层的 pipeline。



InferOpt.jl 开源包地址:https://github.com/axelparmentier/inferopt.jl

InferOpt.jl 适用于任意优化算法,并且与 Julia 的 ML 生态系统完全兼容。研究团队使用视频游戏的地图寻路问题来展示它的能力。

推理问题的关键是预测给定输入的输出,这需要了解每个 ML 层的参数。而学习问题旨在找到在推理过程中导致「良好」输出的参数。如下等式 (1) 所示,现有的「CO oracle」代表可以解决优化问题的算法,包括基于求解器和手工的算法。


而层的定义是指我们可以使用自动微分 (AD) 计算有意义的导数,但现有 CO oracle 很少与 AD 兼容,并且导数几乎处处为零,没有可利用的斜率信息。

因此,此前 CO oracle 还不是层,该研究的重点就是利用概率学的知识将其变成一个层。现代 ML 库提供了丰富的基本构建块,允许用户组装和训练复杂的 pipeline。该研究试图利用这些库来创建混合 ML-CO pipeline,并主要解决了两个问题:

  • 将 CO oracle 转换为可用层;
  • 找到合适的 ML 损失函数,避免忽略潜在的优化问题。


感兴趣的读者可以阅读论文原文,了解更多研究细节。

相关文章
|
7月前
|
算法
算法基础:高精度运算
算法基础:高精度运算
83 0
|
7月前
|
算法 搜索推荐 图计算
图计算中的社区发现算法是什么?请解释其作用和常用算法。
图计算中的社区发现算法是什么?请解释其作用和常用算法。
147 0
|
存储 算法
【算法基础】高精度运算
【算法基础】高精度运算
58 0
|
24天前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
43 3
|
6月前
|
机器学习/深度学习 存储 编解码
Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色
IBM研究人员提出Tiny Time Mixers (TTM),这是一个轻量级、基于mlp的TS模型,参数量小于1M,在M4数据集上表现优于大型SOTA模型,且具备优秀的零样本预测能力。TTM无注意力机制,利用TSMixer进行多级建模,自适应补丁和频率前缀调整等创新特性提升性能。预训练和微调阶段各有独特设计,预训练仅用单变量序列,微调时学习多变量依赖。TTM在某些任务中证明了小模型的优越性,且模型已开源。
278 1
|
7月前
|
Python
python隶属关系图模型:基于模型的网络中密集重叠社区检测方法
python隶属关系图模型:基于模型的网络中密集重叠社区检测方法
|
7月前
|
存储 移动开发 算法
常见基础实用算法详解
常见基础实用算法详解
59 0
|
机器学习/深度学习 存储 人工智能
ACL 2020 | 模型压缩25倍,MIT 韩松组提出高效适配不同硬件的HAT模型
运用注意力机制的 Transformer 模型近几年在 NLP 领域获得了广泛应用。然而,由于参数量和计算量巨大,Transformer 模型难以在存储和算力有限的边缘硬件设备上高效部署。为了解决 Transformer 的低效问题,来自 MIT 的研究人员提出了 HAT: Hardware-Aware Transformers,针对不同的硬件设备的特性,为每个硬件搜索出一个高效的 Transformer 模型,从而在保持精确度的前提下大幅降低内存消耗。在同样的精度下,相比于基线 Transformer, HAT 可以获得 3 倍加速,3.7 倍模型压缩。
294 0
ACL 2020 | 模型压缩25倍,MIT 韩松组提出高效适配不同硬件的HAT模型
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
241 0
|
存储 算法
算法基础
递归算法在计算机系统中用栈帮助实现,一般常见的算法有深度优先遍历(DFS),可以解决的问题有迷宫问题是否连通的问题,递推会对应一个递归搜索树,递归搜索树可以帮助我们更好的理解递归的流程,递归要注意的有是否可以进行剪枝,在迷宫问题中,也要考虑是否要保存原有的迷宫。
210 0
算法基础
下一篇
DataWorks