论文|一种针对非线性数据的局部在线学习方法

简介:

小蚂蚁说:

亚太知识发现和数据挖掘会议(PAKDD,Pacific-Asia Conference on Knowledge Discovery and Data Mining)是知识发现和数据挖掘(KDD)领域的国际领先会议。它为研究人员和行业从业人员提供了一个国际论坛,分享他们的所有KDD相关领域的新想法,原创研究成果和实践开发经验,包括数据挖掘,数据仓库,机器学习,人工智能,数据库,统计学,知识工程,可视化,决策系统和新兴应用程序。

本文是蚂蚁金服录用于2018PAKDD research track长论文《A Local Online Learning Approach for Non-linear Data》(录取率仅为10%)的简要介绍,作者:杨新星、周俊、赵沛霖、陈岑、陈超超、李小龙。

摘要

由于在线学习(online learning)的高效性和可扩展性使其成为解决超大规模数据的实时学习问题的热门选择。

现阶段大多数在线学习方法都是基于全局模型的方法,即使用一个全局模型来处理所有数据,而且大多都假设流入的数据都是线性可分的。然而这种假设在实践中并非总是如此,因此基于局部在线学习框架被提出来解决非线性可分的问题。并且这种方法无需引入kernel, 从而降低了模型的复杂度。之前一些局部在线学习框架中的模型的参数大多数仅仅利用了特征的一阶信息,因此将严重限制分类器的性能。为了提高提高分类器的性能,许多二阶信息的模型被提出,比如典型的二阶在线学习算法SCW(Soft Confidence Weighted)。

受到以上信息的启发,我们提出了一个基于SCW算法的局部(Local)在线学习(Onlinelearning)算法(SCW-LOL)。该算法将单个SCW分类器扩展到多个SCW分类器,组成一个多分类器模型。我们还研究了各个分类器之间的更新和预测关系以及算法的理论预测误差上界。广泛的实验结果表明,我们提出所提出的SCW-LOL算法是收敛的,并且相对目前主流的在线学习方法,几乎在所有数据集都能达到最佳效果。

引言

近年来,在线学习算法在数据挖掘和机器学习中扮演越来越重要的角色。与通过学习整个训练数据产生最佳预测的传统机器学习技术相反,在线学习模型通过流式数据,每次只处理一个实例,根据预测结果实时更新当前模型,一直重复循环。由于在线学习不需要跟踪任何历史示例,因此避免了昂贵的训练成本并减少了大量的内存消耗。同时在线学习能实时将最新的数据反馈至模型中,减少了模型的延时性。这些优势使其在工业界有较多应用,例如搜索排序、协作过滤和异常检测等。

很早就有一些在线学习算法被提出和应用,如Perceptron Algorithm和Passive Aggressive(PA)算法。由于一阶在线学习算法仅仅使用一阶信息,往往称这些算法为一阶在线学习算法。后来又出现了大量的二阶在线学习算法来进一步提高分类器的性能。最具代表性有Confidence Weight(CW),Adaptive Regularization of Weights(AROW)和Soft Confidence Weight(SCW-I,SCW-II)算法等。二阶在线学习使用了二阶信息,其效果往往要优于一阶在线学习模型效果。一阶和二阶在线学习算法都假设传入的实例几乎是线性可分的,然而在实践中有些实例是线性不可分的,甚至是非线性的。

为了解决在线学习中的非线性可分问题,一些基于核的在线学习算法被广泛应用,但是这些基于核在线学习方法需要消耗更多的计算和内存资源。同时另一方面,为了解决线性不可分的任务,一些局部分类器已经在离线学习中提出。比如:局部线性支持向量机和局部深度核学习。这些局部分类器避免了内核建模,并且比内核方法快得多,但它们并不合适应用于在线学习任务中。为了解决在线学习的非线性数据的问题,一种基于多个局部分类器的联合在线学习框架被提出,并显示了良好的效果。为了提高模型的效果,我们进一步扩展地提出了基于SCW算法的局部在线学习算法(SCW-LOL)。稍后我们将详细描述该算法的细节以及实验结果。

问题分析

在线学习过程可表示为:时刻t时,模型遇到实时样本

论文|一种针对非线性数据的局部在线学习方法

当前模型将对样本给出一个预测值

论文|一种针对非线性数据的局部在线学习方法

之后,模型将收到一个样本标签

论文|一种针对非线性数据的局部在线学习方法

这样模型就能计算出上次预测的损失值

论文|一种针对非线性数据的局部在线学习方法

并通过loss值去更新模型参数。在线学习的目标是模型的所有历史上误差的累加和最小。

方法介绍

在这里我们将详细介绍我们的方法细节。SCW-LOL算法主要包括两部分:主分类器模型,其参数为均值

论文|一种针对非线性数据的局部在线学习方法

和协方差矩阵

论文|一种针对非线性数据的局部在线学习方法

各个子分类器模型,每个子分类器参数为均值

论文|一种针对非线性数据的局部在线学习方法

和协方差矩阵

论文|一种针对非线性数据的局部在线学习方法

我们将SCW算法中优化函数扩展为多个分类器的优化函数,如下:

论文|一种针对非线性数据的局部在线学习方法

在实际中,每个样本都对应一个主分类器和一个特定的子分类器,公式(6)表示当前样本

论文|一种针对非线性数据的局部在线学习方法

对应于第j个子分类器,其中

论文|一种针对非线性数据的局部在线学习方法

为超参数,表示主分类器的权重。这样我们将样本可以定义如下形式:

论文|一种针对非线性数据的局部在线学习方法

与其他传统的在线学习不同,在样本与子分类器的选择上,我们采用一种onlineKMeans算法,将样本分配到离样本距离最近的子分类器。每个子分类器维护自己的一个质心

论文|一种针对非线性数据的局部在线学习方法

,通过质心来计算与样本的距离。同时,当样本分配到该子分类器时,更新质心如下公式:

论文|一种针对非线性数据的局部在线学习方法

其中

论文|一种针对非线性数据的局部在线学习方法

表示t时刻分配到i个子分类器的总样本数。

同理,主分类器和子分类器模型的参数可表示如下形式:

论文|一种针对非线性数据的局部在线学习方法

论文|一种针对非线性数据的局部在线学习方法

那么公式(5)可以写成如下公式:

论文|一种针对非线性数据的局部在线学习方法

公式(9)和SCW算法的目标函数类似,模型参数的更新公式如下:

论文|一种针对非线性数据的局部在线学习方法

其中相关系数的计算如下:

论文|一种针对非线性数据的局部在线学习方法

论文|一种针对非线性数据的局部在线学习方法

其中SCW-LOL算法训练和更新的流程如下图:

论文|一种针对非线性数据的局部在线学习方法

实验结果

我们采用两个主要指标来衡量在线学习的性能,一个是累积错误率

论文|一种针对非线性数据的局部在线学习方法

, 该指标反映了模型从开始到现在的整体准确率。另一个指标是测试错误率,这个指标表示模型训练结束后,在未知的测试集上的错误率,该指标反映了模型的泛化能力。

我们在10个不同数据集(5个2分类数据集,5个多分类数据集)上测试了我们的SCW-LOL算法,并同时与其他主要的在线学习算法比较,其结果如下:

论文|一种针对非线性数据的局部在线学习方法

论文|一种针对非线性数据的局部在线学习方法

论文|一种针对非线性数据的局部在线学习方法

从实验结果来看,SCW-LOL算法在大部分数据集上都取得了最好的性能。尤其在多分类预测中,在所有算法中的错误率最小。

总结

为解决在线学习中非线性数据的问题,我们提出了一种基于SCW算法的局部在线学习(SCW-LOL)算法。该算法从流数据中学习并更新全局模型和局部模型。传入的样本将被分配到相应的局部模型,通过多个局部线性模型来逼近非线性模型,从而解决数据非线性可分问题。此外,我们的方法模型参数维护了二阶信息,比一阶在线学习方法的准确度更高。通过损失界限的理论分析,SCW-LOL算法的损失界限不会高于SCW算法的损失界限,也就意味着该在线学习算法是收敛的。实验结果显示,SCW-LOL算法在流式数据预测中性能十分突出,尤其在多类分类预测任务上。

论文链接:http://prada-research.net/pakdd18/pdf/479.pdf​​​​

目录
相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【模式识别】探秘判别奥秘:Fisher线性判别算法的解密与实战
【模式识别】探秘判别奥秘:Fisher线性判别算法的解密与实战
158 0
|
2月前
|
机器学习/深度学习 算法 知识图谱
【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)
【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)
|
5月前
|
机器学习/深度学习
ICML 2024:揭示非线形Transformer在上下文学习中学习和泛化的机制
【7月更文挑战第10天】Rensselaer Polytechnic Institute和IBM的研究者探讨了非线性Transformer在上下文学习的理论基础。他们展示了Transformer如何通过注意力层聚焦相关上下文,并利用MLP层进行预测,揭示了其在不需微调情况下的泛化能力。尽管研究局限于二进制分类和单层模型,它为理解复杂模型在不同任务和领域的潜在适应性提供了新视角。[论文链接:](https://arxiv.org/pdf/2402.15607)**
47 1
|
6月前
|
机器学习/深度学习 算法 数据格式
机器学习线性回归——概念梳理及非线性拟合
机器学习线性回归——概念梳理及非线性拟合
91 0
|
7月前
|
存储 人工智能 自然语言处理
论文介绍:Mamba:线性时间序列建模与选择性状态空间
【5月更文挑战第11天】Mamba是新提出的线性时间序列建模方法,针对长序列处理的效率和内存问题,采用选择性状态空间模型,只保留重要信息,减少计算负担。结合硬件感知的并行算法,优化GPU内存使用,提高计算效率。Mamba在多种任务中展现出与Transformer相当甚至超越的性能,但可能不适用于所有类型数据,且硬件适应性需进一步优化。该模型为长序列处理提供新思路,具有广阔应用前景。[论文链接](https://arxiv.org/abs/2312.00752)
194 3
|
7月前
|
机器学习/深度学习 开发者
论文介绍:基于扩散神经网络生成的时空少样本学习
【2月更文挑战第28天】论文介绍:基于扩散神经网络生成的时空少样本学习
83 1
论文介绍:基于扩散神经网络生成的时空少样本学习
|
7月前
|
存储 算法 前端开发
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
|
机器学习/深度学习 PyTorch 算法框架/工具
【Pytorch神经网络实战案例】19 神经网络实现估计互信息的功能
定义两组具有不同分布的模拟数据,使用神经网络的MINE的方法计算两个数据分布之间的互信息
386 0
|
机器学习/深度学习 编解码 人工智能
2022最新综述!一文详解多目标跟踪方法最新进展(单帧/多帧/特征/相关性)
多目标跟踪(MOT)旨在跨视频帧关联目标对象,以获得整个运动轨迹。随着深度神经网络的发展和对智能视频分析需求的增加,MOT在计算机视觉领域的兴趣显著增加。嵌入方法在MOT中的目标位置估计和时间身份关联中起着至关重要的作用,与其他计算机视觉任务(如图像分类、目标检测、重识别和分割)不同,MOT中的嵌入方法有很大的差异,并且从未被系统地分析和总结。本综述首先从七个不同的角度对MOT中的嵌入方法进行了全面概述和深入分析,包括补丁级嵌入、单帧嵌入、跨帧联合嵌入、相关嵌入、顺序嵌入、小轨迹嵌入和跨轨迹关系嵌入。论文进一步总结了现有广泛使用的MOT数据集,并根据其嵌入情况分析了现有最先进方法的优势策略。
2022最新综述!一文详解多目标跟踪方法最新进展(单帧/多帧/特征/相关性)
|
机器学习/深度学习 算法 PyTorch
知识蒸馏 | 知识蒸馏的算法原理与其他拓展介绍
知识蒸馏 | 知识蒸馏的算法原理与其他拓展介绍
448 0
知识蒸馏 | 知识蒸馏的算法原理与其他拓展介绍