一文读懂深度适配网络(DAN)

简介:

这周五下午约见了机器学习和迁移学习大牛、清华大学的龙明盛老师。老师为人非常nice,思维敏捷,非常健谈!一不留神就谈了1个多小时,意犹未尽,学到了很多东西!龙明盛老师在博士期间(去年博士毕业)发表的文章几乎全部是A类顶会,他在学期间与世界知名学者杨强、Philip S. Yu及Michael I. Jordan多次合作,让我非常膜拜!这次介绍他在ICML-15上提出的深度适配网络。

深度适配网络(Deep Adaptation Netowrk,DAN)是清华大学龙明盛提出来的深度迁移学习方法,最初发表于2015年的机器学习领域顶级会议ICML上。DAN解决的也是迁移学习和机器学习中经典的domain adaptation问题,只不过是以深度网络为载体来进行适配迁移。DAN是深度迁移学习领域的代表性工作,被UC Berkeley、HKUST等世界知名大学不断引用。杨强老师对DAN的评价很高,在Google Scholar上也有着很高的引用量,可以被看作是深度迁移学习领域的经典文章。值得注意的是DAN文章的最后一位作者是Michael I. Jordan,机器学习领域的泰山北斗。所以这篇文章的含金量非常的大。

背景

继Jason Yosinski在2014年的NIPS上的《How transferable are features in deep neural networks?》探讨了深度神经网络的可迁移性以后,有一大批工作就开始实际地进行深度迁移学习。我们简要回顾一下Jason工作的重要结论:对于一个深度网络,随着网络层数的加深,网络越来越依赖于特定任务;而浅层相对来说只是学习一个大概的特征。不同任务的网络中,浅层的特征基本是通用的。这就启发我们,如果要适配一个网络,重点是要适配高层——那些task-specific的层。

适配高层网络的代表性工作是Eric Tzeng等人在2014年发在arXiv上的《Deep domain confusion: maximizing for domain invariance》(至今没找到到底发在哪了)。这篇文章针对于预训练的AlexNet(8层)网络,在第7层(也就是feature层,softmax的上一层)加入了MMD距离来减小source和target之间的差异。这个方法简称为DDC。这篇文章概括一点说,就是适配了最高层网络,只有一层。那么,是否只适配这一层就够了呢?

介绍

DAN是在DDC的基础上发展起来的,它很好地解决了DDC的两个问题:

  1. DDC只适配了一层网络,可能还是不够,因为Jason的工作中已经明确指出不同层都是可以迁移的。所以DAN就多适配几层;

  2. DDC是用了单一核的MMD,单一固定的核可能不是最优的核。DAN用了多核的MMD(MK-MMD),效果比DDC更好。

方法

上面已经说过,DAN的创新点是多层适配和多核MMD。那么我们针对两个方面分别介绍。

多核MMD(Multi-kernel MMD,MK-MMD)

这个MK-MMD是基于原来的MMD发展而来的,它并不是这个文章提出来的,是由Gretton这位核方法大牛在2012年提出来的。原来的MMD呢,是说我们要把source和target用一个相同的映射映射在一个再生核希尔伯特空间(RKHS)中,然后求映射后两部分数据的均值差异,就当作是两部分数据的差异。最重要的一个概念是核gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAA,在MMD中这个gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAA是固定的,我们在实现的时候可以选择是高斯核还是线性核。这样的缺点是明显的:我怎么知道哪个核一定好?

MK-MMD就是为了解决这个问题。它提出用多个核去构造这个总的核,这样效果肯定会比一个核好呀!对于两个概率分布gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAA,它们的MK-MMD距离就是gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAA这个多个核一起定义的kernel就是640?wx_fmt=png&wxfrom=5&wx_lazy=1这个式子很好理解。原来我们的640?wx_fmt=png&wxfrom=5&wx_lazy=1

就是一个固定的函数嘛,现在我们把它用640?wx_fmt=png&wxfrom=5&wx_lazy=1个不同kernel进行加权,权重就是640?wx_fmt=png&wxfrom=5&wx_lazy=1。这样的表征能力一定不会比一个kernel差的!

多层适配

这个就很好理解了。原来的DDC方法只是适配了一层,现在DAN也基于AlexNet网络,适配最后三层(6~8层)。为什么是这三层?因为在Jason的文章中已经说了,网络的迁移能力在这三层开始就会特别地task-specific,所以要着重适配这三层。至于别的网络(比如GoogLeNet、VGG)等是不是这三层那就不知道了,那得一层一层地计算相似度。DAN只关注使用AlexNet。

总的方法

好了,我们已经把DAN的两个要点讲完了。现在总的来看一下DAN方法。它基于AlexNet网络,探索source和target之间的适配关系。任何一个方法都有优化的目标。DAN也不例外。它的优化目标由两部分组成:损失函数和分布距离。损失函数这个好理解,基本上所有的机器学习方法都会定义一个损失函数,它来度量预测值和真实值的差异。分布距离就是我们上面提到的MK-MMD距离。于是,DAN的优化目标就是:640?wx_fmt=png&wxfrom=5&wx_lazy=1

这个式子中,640?wx_fmt=png&wxfrom=5&wx_lazy=1表示网络的所有权重和bias参数,是用来学习的目标。其中640?wx_fmt=png&wxfrom=5&wx_lazy=1分别是6和8,表示网络适配是从第6层到第8层,前面的不进行适配。640?wx_fmt=png&wxfrom=5&wx_lazy=1表示source和target中所有有label的数据的集合。640?wx_fmt=png&wxfrom=5&wx_lazy=1是惩罚系数。640?wx_fmt=png&wxfrom=5&wx_lazy=1就定义了一个损失函数,在深度网络中一般都是cross-entropy。DAN的网络结构如下图所示。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

学习策略

现在已经把问题定义的非常明确了,可以开始训练和学习了。学习一共分为两大类参数:学习网络参数640?wx_fmt=png&wxfrom=5&wx_lazy=1和MMD的640?wx_fmt=png&wxfrom=5&wx_lazy=1

学习640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1的学习依赖于MK-MMD距离的计算。通过kernel trick(类比于以前的MMD距离)我们总是可以把MK-MMD展开成一堆内积的形式。然而,数据之间两两计算内积是非常复杂的,时间复杂度为640?wx_fmt=png&wxfrom=5&wx_lazy=1,这个在深度学习中的开销非常之大。怎么办?作者在这里采用了Gretton在文章提出的对MK-MMD的无偏估计:640?wx_fmt=png&wxfrom=5&wx_lazy=1,其中的640?wx_fmt=png&wxfrom=5&wx_lazy=1是一个四元组:640?wx_fmt=png&wxfrom=5&wx_lazy=1。将kernel作用到gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAA上以后,变成640?wx_fmt=png&wxfrom=5&wx_lazy=1

上面这些变换看着好恐怖。它是个什么意思呢?简单来说,它就是只计算了连续的一对数据的距离,再乘以2.这样就可以把时间复杂度降低到640?wx_fmt=png&wxfrom=5&wx_lazy=1!至于具体的理论,可以去参考Gretton的论文,这里就不说了。反正这个计算方法是Gretton提出来的。

在具体进行SGD的时候,我们需要对所有的参数求导:对640?wx_fmt=png&wxfrom=5&wx_lazy=1求导。在实际用multiple-kernel的时候,作者用的是多个高斯核。

学习640?wx_fmt=png&wxfrom=5&wx_lazy=1

学习$\beta$主要是为了确定多个kernel的权重。学习的时候,目标是:确保每个kernel生成的MMD距离的方差最小。也就是640?wx_fmt=png&wxfrom=5&wx_lazy=1这里的640?wx_fmt=png&wxfrom=5&wx_lazy=1是估计方差。实际求解的时候问题可以被规约成一个二次规划问题求解,具体可以参照文章。

结论

DAN作为深度迁移学习的代表性方法,充分利用了深度网络的可迁移特性,然后又把统计学习中的MK-MMD距离引入,取得了很好的效果。作者在2017年又进一步对其进行了延伸,做出了Joint Adaptation Network (JAN),也发在了ICML 2017上。在JAN中,作者进一步把feature和label的联合概率分布考虑了进来,可以视作之前JDA(joint distribution adaptation)的深度版。下次我们介绍这个工作。总的来说,深度迁移学习在DAN和JAN的开创性工作面前,留给模型创新的空间已经不多了。这才是我们要思考的问题。如何推陈出新?

数学很重要!我们可以看到最重要的MK-MMD是搞数据的提出来的!好好学数学!


原文发布时间为:2017-07-14

本文作者:Lukas Biewald

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关文章
|
网络协议 安全 API
iOS14适配汇总:【1、隐私权限相关:定位、相册、IDFA 2、KVC相关3、UIView相关;4、网络相关】
iOS14适配汇总:【1、隐私权限相关:定位、相册、IDFA 2、KVC相关3、UIView相关;4、网络相关】
466 0
iOS14适配汇总:【1、隐私权限相关:定位、相册、IDFA 2、KVC相关3、UIView相关;4、网络相关】
|
物联网 芯片
AliOS Things网络适配框架 - SAL
很多物联网应用场景中,都需要使用主控MCU外接连接芯片(如WiFi、NB-IoT)的解决方案。为方便这类场景的开发,AliOS Things提供了Socket Adapter Layer(SAL)框架和组件方案
6273 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
m基于深度学习网络的手势识别系统matlab仿真,包含GUI界面
m基于深度学习网络的手势识别系统matlab仿真,包含GUI界面
38 0
|
1月前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络的火焰烟雾检测系统matlab仿真
基于yolov2深度学习网络的火焰烟雾检测系统matlab仿真
|
1月前
|
机器学习/深度学习 算法 计算机视觉
m基于深度学习网络的性别识别系统matlab仿真,带GUI界面
m基于深度学习网络的性别识别系统matlab仿真,带GUI界面
29 2
|
1月前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络的视频手部检测算法matlab仿真
基于yolov2深度学习网络的视频手部检测算法matlab仿真
|
1月前
|
机器学习/深度学习 算法 数据库
基于CNN卷积网络的MNIST手写数字识别matlab仿真,CNN编程实现不使用matlab工具箱
基于CNN卷积网络的MNIST手写数字识别matlab仿真,CNN编程实现不使用matlab工具箱
|
1月前
|
传感器 算法 Go
基于EKF扩展卡尔曼滤波的传感器网络目标跟踪matlab仿真
基于EKF扩展卡尔曼滤波的传感器网络目标跟踪matlab仿真
|
2月前
|
机器学习/深度学习 算法 数据挖掘
【MATLAB】tvf_emd_ MFE_SVM_LSTM 神经网络时序预测算法
【MATLAB】tvf_emd_ MFE_SVM_LSTM 神经网络时序预测算法
44 2

热门文章

最新文章