反向传播的无监督域自适应方法

简介: 反向传播的无监督域自适应方法

论文标题:Unsupervised Domain Adaptation by Backpropagation


论文链接:https://arxiv.org/abs/1409.7495


论文来源:ICML 2015


一、概述


在有大量的标注数据时,深度模型往往能取得一个较好的性能。对于缺少标注数据的时候,也可以足够大的训练集来训练深度网络模型,不过不可避免的要面对训练数据与测试数据的分布之间的偏移(shift)。


一个重要的例子是合成或半合成训练数据,这些数据可能会大量出现,并被完全标注,但它们不可避免地具有与测试时的真实数据不同的分布。训练数据和测试数据可以看做位于不同的域(domain),我们希望在这样的训练数据上训练的模型也能够应用在测试数据上,这样的过程称为域自适应(Domain Adaptation,DA)。通常,拿来训练的数据称为源域(source domain),测试数据称为目标域(target domain)。举个具体的例子来说,下图中上面与下面都是手写体数字,只是背景和字体颜色不同,这就是域的数据分布的偏移,使用上面的数据训练的手写体数字识别模型显然不能拿来识别下面的数字,我们希望利用域自适应的方法来做到这件事情:


BZEAW{RV{2Q0_B_81IFOG8Q.png

                   example


域自适应的方法通常需要能够做到源域数据完全未标注(unsupervised domain annotation)或者只有少量标注样本(semi-supervised domain adaptation)。本文所提出的方法主要面向完全未标注的情况,不过也能够轻易地处理半监督的情况。


二、方法


  1. 框架


不同于之前在固定特征表示上进行域自适应的方法,本文提出的方法中特征学习与域自适应同步进行,目的是能够学习到在域的变化中具有区别性(discriminative)和不变性(invariant)的特征,也就是源域和目标域的特征有相同或者相似的分布。这样的目标通过联合优化底层特征以及两个在这些特征上操作的鉴别分类器来实现的,这两个分类器是:


①label predictor,训练和测试时都要用的标签预测分类器,用来预测类别标签(以手写数字为例,就是预测图片是哪个数字);


②domain classifier,训练时使用的域分类器,预测样本属于哪一个域。


以最小化分类器在训练集上的loss为目标来优化两个分类器的参数,而以最小化label predictor的损失和最大化domain classifier的loss来优化底层深度特征提取器的参数。

本文所提出的网络架构如下图所示:


}_JQ_)BDEFCX@N@O}P%X]II.png

                                            架构


模型主要包括3个部分:feature extractor、label predictor和domain classifier。这三个部分可以使用以往任何前馈结构来实现,唯一在本文中提出的特殊结构是图中的梯度反转层(Gradient Reversal Layer,GRL)。


  1. 符号表示


8QR`7RIC4QY)10N4J7F_2KT.png


  1. 模型的训练


`VYE6]21]D)9{NDLA%OGFTN.png


考虑以下函数:


A`[LJYVG%$E2[@2QVXIJT{S.png


上式的实现显然不能通过SGD直接实现,因此需要做一些妥协,因而有了梯度反转层。梯度反转层在前向传播时做恒等变换,在反向传播时将后面层的梯度乘以)LC3JZ@`HKNZO45]TEV~BIA.png并且传播到前面的层。使用目前的深度学习工具包实现这样一个梯度反转层很简单。梯度反转层被添加到feature extractor和domain classifier之间。形式化表达梯度反转层如下:

13)V[YALFPEH24WCM~VY]5W.png


  1. 超参数设置


学习率变化:


EYP`C%SE9BC52FJS4YYQIIH.png


三、实验


在不同的数据集上进行了实验,数据集的一些例子如下:


QLVGTF[E%]Y%RB)_L5J7O~Q.png

                                                   example


实验结果如下:


G]07BV1TGYGOLJZC[)7NDTP.png

                                          实验结果


这里SOURCE ONLY相当于性能下限,TRAIN ON TARGET相当于性能上限。


另外在OFFICE数据集上进行了实验,实验结果如下:


$]S0VA%{$]]DORYDX7N(1JO.png

                                       实验结果


对于学习到的特征分布,使用t-SNE做了可视化:


N3NN1E8P@00XEMJ8LGSG90S.png

                                   可视化特征


可以看到应用域自适应方法以后源域数据和目标域数据的特征分布更加接近了。

相关文章
|
8月前
|
机器学习/深度学习 算法 Serverless
大模型开发:描述损失函数的作用以及一些常见的损失函数。
损失函数在机器学习中至关重要,用于衡量预测误差、优化模型、评估性能及选择模型。常见类型包括均方误差(MSE)、均方根误差(RMSE)、交叉熵损失(适用于分类)、绝对误差(MAE)、hinge损失(SVMs)、0-1损失、对数似然损失和Focal Loss(应对类别不平衡)。选择时要考虑模型性质、数据特征和优化需求。
566 3
|
7天前
分布匹配蒸馏:扩散模型的单步生成优化方法研究
扩散模型在生成高质量图像方面表现出色,但其迭代去噪过程计算开销大。分布匹配蒸馏(DMD)通过将多步扩散简化为单步生成器,结合分布匹配损失和对抗生成网络损失,实现高效映射噪声图像到真实图像,显著提升生成速度。DMD利用预训练模型作为教师网络,提供高精度中间表征,通过蒸馏机制优化单步生成器的输出,从而实现快速、高质量的图像生成。该方法为图像生成应用提供了新的技术路径。
24 2
|
5月前
|
存储 机器学习/深度学习 物联网
基于重要性加权的LLM自我改进:考虑分布偏移的新框架
本文提出一种新的大型语言模型(LLM)自我改进框架——基于重要性加权的自我改进(IWSI),旨在优化自动生成数据的质量。通过引入DS权重指标衡量数据的分布偏移程度(DSE),该方法不仅能确保答案正确性,还能过滤掉那些虽正确但分布上偏离较大的样本,以提升自我训练的效果。IWSI使用一个小的有效数据集来估算每个自生成样本的DS权重,并据此进行筛选。实验结果显示,相比于仅依赖答案正确性的传统方法,IWSI能更有效地提高LLM在多种任务上的表现。特别是在数学问题解答任务上,相较于基线方法,IWSI带来了显著的性能提升,证实了过滤高DSE样本的重要性及该方法的有效性。
85 0
基于重要性加权的LLM自我改进:考虑分布偏移的新框架
|
5月前
|
机器学习/深度学习
神经网络中权重初始化的重要性
【8月更文挑战第23天】
180 0
|
5月前
|
机器学习/深度学习 运维 算法
监督算法和无监督算法之间的区别
【8月更文挑战第23天】
182 0
|
7月前
|
机器学习/深度学习 算法
**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。
【6月更文挑战第28天】**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。数据从输入层流经隐藏层到输出层,计算预测值。接着,比较预测与真实值计算损失。然后,从输出层开始,利用链式法则反向计算误差和梯度,更新权重以减小损失。此过程迭代进行,直到损失收敛或达到训练次数,优化模型性能。反向传播实现了自动微分,使模型能适应训练数据并泛化到新数据。
79 2
|
7月前
|
机器学习/深度学习 决策智能
**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。
【6月更文挑战第28天】**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。BN通过在每个小批量上执行**标准化**,然后应用学习到的γ和β参数,确保层间输入稳定性,加速训练,减少对超参数的敏感性,并作为隐含的正则化手段对抗过拟合。这提升了模型训练速度和性能,简化了初始化。
66 0
|
7月前
|
机器学习/深度学习 算法 网络架构
**深度学习中的梯度消失与爆炸影响模型训练。梯度消失导致输入层参数更新缓慢,梯度爆炸使训练不稳。
【6月更文挑战第28天】**深度学习中的梯度消失与爆炸影响模型训练。梯度消失导致输入层参数更新缓慢,梯度爆炸使训练不稳。解决办法包括:换激活函数(如ReLU)、权重初始化、残差连接、批量归一化(BN)来对抗消失;梯度裁剪、权重约束、RMSProp或Adam优化器来防止爆炸。这些策略提升网络学习能力和收敛性。**
73 0
|
8月前
|
机器学习/深度学习 人工智能
SalUn:基于梯度权重显著性的机器反学习方法,实现图像分类和生成的精确反学习
【4月更文挑战第29天】SalUn是一种新的机器反学习方法,专注于图像分类和生成的精确反学习。通过关注权重的梯度显著性,SalUn能更准确、高效地从模型中移除特定数据影响,提高反学习精度并保持稳定性。适用于多种任务,包括图像生成,且在条件扩散模型中表现优越。但计算权重梯度的需求可能限制其在大规模模型的应用,且在数据高度相关时效果可能不理想。[链接](https://arxiv.org/abs/2310.12508)
147 1
|
8月前
|
机器学习/深度学习 存储 编解码
重参架构的量化问题解决了 | 粗+细粒度权重划分量化让RepVGG-A1仅损失0.3%准确性
重参架构的量化问题解决了 | 粗+细粒度权重划分量化让RepVGG-A1仅损失0.3%准确性
105 0
重参架构的量化问题解决了 | 粗+细粒度权重划分量化让RepVGG-A1仅损失0.3%准确性

热门文章

最新文章

相关实验场景

更多
下一篇
开通oss服务