【OpenVI—论文解读系列】细粒度分类SoftTriple Loss ICCV高引论文深入解读

2023-05-09 6391

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，图像资源包5000点

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频资源包5000点

简介： SoftTriple Loss论文是在图像细粒度分类领域提出了新型度量学习方法，该方法可以被广泛应用于各种搜索、识别等领域中，目前谷歌学术引用240+，相对高引。相比原始论文文档，本文将介绍更多研究过程中遇到的问题点以及相应创新方法的演进历史。

一、背景

度量学习是一种机器学习方法，它主要用于在相似性度量的基础上进行数据挖掘。具体来说，度量学习通过学习一种函数来度量两个数据样本点的相似性。这种函数称为度量函数，它的目的是在尽可能减少度量错误的同时最小化相似数据样本点之间的距离。典型的度量学习方法包括Triplet Loss、ProxyNCA、Npairs等。度量学习可以应用于许多领域，例如：

1.）图像分类：度量学习可以用来帮助计算机识别图像中的物体。例如，通过学习数据集中的图像时，可以计算出两张图像之间的相似度，从而帮助计算机对新图像进行分类。例如，能够将图像分类到“狗”、“猫”或“其他”的类别中。度量学习在图像识别和分类中的应用非常广泛，且取得了很好的效果。

2.）文本分类：在文本领域，度量学习可以用来对文本进行分类，例如将文本分为正面或负面的情感，或者将它们分类到特定的主题中。假设我们有一组文档，每个文档都属于某一个类别，比如技术文章、新闻报道、娱乐新闻或体育新闻。我们可以训练一个模型，该模型能够将一篇新闻报道与一篇技术文章区分开来，并将它们分别分类到新闻报道或技术文章的类别中。

3.）语音识别：例如，我们可以使用度量学习来学习语音中的特征，并根据这些特征来识别说话人的语音内容。也可以训练一个模型，该模型能够识别一段语音是否是某个特定的人的声音。度量学习在语音识别领域的应用也非常广泛，且取得了很好的效果。

随着深度学习的兴起，度量学习也越来越多的跟深度学习网络得到的特征结合在了一起，本文结合深度学习框架，面向细粒度分类领域，提出了新型的SoftTriple Loss。如下简易示意图所示：

二、方法

该章节面向深度度量学习领域，选取了三类典型的Loss，做了相应的优缺点分析，最后引出本文SoftTriple方法及其创新演进历程解析。

2.1 triplet Loss分析

2.2 SoftMax Loss分析

论文对图像分类以及识别领域大为盛行且简单易用的SoftMax函数做了分析，通过巧妙的简单推导发现SoftMax函数其实就是等价于平滑（体现在每个类都有一个类中心，可理解为每个类共享一个中间proxy节点）的Triplet Loss函数，它的优点就是免triplet采样，一键batch化样本去训练。简易的推导示意如下图：