《中国人工智能学会通讯》——11.33 研究内容与主要贡献-阿里云开发者社区

开发者社区> 人工智能> 正文

《中国人工智能学会通讯》——11.33 研究内容与主要贡献

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第11章,第11.33节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

11.33 研究内容与主要贡献

实现跨领域、多模态、弱标记大数据的智能化分析是机器学习的前沿方向之一。迁移学习能在异构分布的领域之间学习不变特征和无偏模型,实现标记知识的迁移和复用,是经典监督学习在非平稳环境下的扩展和深化。迁移学习的关键挑战是负迁移,即源领域数据对目标任务产生负面效果。本文创新了深度迁移学习新范式,提出一系列深度迁移学习的模型和方法以及面向大数据分析的可扩展性优化算法,各部分具体研究内容和主要贡献如下。

分布差异度量准则:根据迁移学习理论[7] ,迁移学习的泛化误差界由两部分之和界定:训练数据上的经验风险、训练数据与测试数据之间的分布差异。因此,分布差异度量准则是迁移学习成功的关键因素之一。根据统计双样本检验原理,现有迁移学习方法通常采用基于核嵌入的分布差异度量准则,即通过将输入数据嵌入高维甚至无穷维核空间中,在可再生核希尔伯特空间中度量训练数据和测试数据的分布期望距离。然而,这类度量准则在次优核空间中缺乏双样本检验功效,难以充分降低分布差异,提高了负迁移风险。本文研究了多核分布差异度量准则,通过多核学习选择最优核空间,使基于核嵌入的分布差异度量准则达到最大检验功效。采用统计推断中常用的第二型错误率作为源领域和目标领域之间的双样本检验功效的判定准则,通过最小化第二型错误率选取最优核空间。由于采用多核学习,样本分布的各阶矩函数差异都能得到充分度量,从而达到刻划并降低样本分布结构性差异的目标。

此外,当特征和标签的联合概率分布 P(x,y) 在领域之间发生显著差异时,迁移学习变得更具有挑战性,然而这却是实际应用中最为自然的问题场景。现有方法基于条件分布的希尔伯特空间核嵌入理论,分别或同时修正标签和条件偏移。由于不能获得目标领域标签,迁移实际是通过匹配边缘分布而非条件分布实现的。如何无缝地实现联合分布在领域间的匹配仍是一个未决难题。本文创新联合分布差异度量准则,将联合分布直接嵌入到可再生核希尔伯特空间中进行比较,规避了边缘 - 条件分布分解这一难题,是迄今最好的用于迁移学习的联合分布差异度量方法。

深度迁移网络架构:深度网络可以大幅提高抽象特征在不同分布之间的可迁移性,但仅能降低而不能消除不同领域之间的分布差异,仍会面临负迁移风险[20] 。特别是深度网络的上层过多地拟合了特定任务结构,特征可迁移性会随着网络前向传播而逐层降低。本文创新深度迁移学习范式,将深度学习和分布差异最小化紧密结合在端到端的深度迁移网络中,自动学习变换不变性和领域无偏性的深度特征,从而很大程度提高了迁移学习的准确率和安全性。在深度迁移网络中,基于取得突破性进展的AlexNet架构[2] 和当前最先进的GoogLeNet架构 [25] ,将深度网络对领域敏感的多层特征进行多核分布匹配以及联合分布匹配,在多个基准数据集上取得了当前最好的评测效果。

可扩展性优化算法:基于核方法的分布差异度量准则具有较严格的理论保证,但均要求二次计算复杂度,限制了这类迁移方法在大数据环境下的广泛应用。此外,深度学习非常依赖于从大规模数据库中学习抽象的特征表示,因此二次计算复杂度在实际中是不可接受的。更重要的是,深度网络训练十分依赖于小批量随机梯度下降(SGD)算法,而核函数需要计算所有数据点对的相似度,这会给SGD 这类逐点计算的算法带来较大困难。具有良好扩展性的优化算法在现有迁移学习工作中很少述及,但在大数据环境下至关重要,直接关系到迁移学习方法的可用性。本文在统计无偏估计和近似优化方法指导下,提出了基于核方法的深度迁移网络的线性复杂度可扩展性优化算法。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章