【Re-ID项目实践】基于表征学习的行人ReID方法实践(一)

简介: 【Re-ID项目实践】基于表征学习的行人ReID方法实践(一)

1、论文内容概要


   行人重新识别给深度学习抛出一个很大的挑战;如何学习一个有百万参数的深度模型,只需要很少的训练,甚至不需要。针对数据稀疏性问题,这篇论文提出了一系列的方法。


   第一、基于现有的ReID研究问题设计了全新的深度网络架构,其不同之处在于:

   (a)可以从大的数据集的模型中进行迁移学习;

   (b)分类损失和验证对损失相结合,分别采用不同的训练的策略。


   第二、提出了一种两步微调策略来迁移辅助数据集的权重;


   第三、针对未标记的ReID数据集,提出了一个基于联合训练的无监督迁移学习方法(本文不进行阐述)。


   所提出的模型比以往的方法:实现了Rank-1的精度分别在不同的数据集为:CUHK03=85.4%、Market1501=83.7%和VIPeR=56.3%。无监督模式Rank-1的精度为(VIPeR=45.1%),比大多数的监督模式要好一些。


2、相关工作说明


2.1、Deep Re-ID model

   大多数集中在deep metric learning,使用pairwise verification loss或者triplet ranking loss,通常有两个或三个分支。在人脸识别中也有类似本文结合分类损失和验证损失的做法,可以将不同类分开以及将同类距离减小。


   现在的方法网络都是专门针对Re-ID设计的,结构各不相同,通常有较小的输入尺寸和不同的长宽比,卷积核的尺寸也较小,池化层较少。难以学到足够泛化的特征。


2.2、Dropout strategy

   通常用来降低过拟合问题,尤其在数据量较小的,本文针对两种损失函数提出了两种类型的Dropout:

   针对分类损失的standard random dropout

   针对验证损失的pairwise-consistent dropout


2.3、Deep transfer learning

   因为ImageNet与Re-ID任务之间有巨大的domain差异性,传统的one stepped strategy是不足够的,本文提出了two stepped strategy:先只微调分类损失,然后一起微调验证与分类损失;


   multi-task joint training approach:目的在于减少源数据与目标数据的边缘分布或联合分布的差异性,通常要求两个任务有相似domain;


2.4、Deep unsupervised domain adaptation

   字典学习、自编码器:难以学到具有判别力的特征soft-label self-training


3、模型原理


模型结构如下:

3.1、网络可以总结

1、Base network相当于一个特征提取器,是一个在ImageNet上预训练过的GoogLeNet的特征提取部分(本文项目实践部分对应的是ResNet50网络模型);


2、添加了两种Subnet来充分利用ID信息,对输入的图片不仅进行ID分类,还进行照片对的验证;


3、利用一个Dropout选择器,首要的当然是防止过拟合,至于为什么要搞一个选择器,也很好理解,Classification部分图片对随机Dropout互不影响,而在Verification部分,需要对图片对的Dropout进行统一,也是为了排除Dropout对核实的影响;


4、两个部分都采用Cross-Entropy Loss。


3.2、模型组件

Base Network:为了利用ImageNet数据集上的特征,选取了在ImageNet上表现较好且参数较少的GoogleNet;


Loss specific dropout unit:对于Base network产生的D维向量y:若是分类Subnet则使用标准的Dropout操作:y˜=r*y,r中的每一个元素都是随机采样于Bernoulli process。若是验证Subnet,因为有一个元素之间的Subtract操作,标准的Dropout并不适合,采用了Pairwise-Consistent Dropout,产生两个Dropout masks ri、rj,同时ri=rj;


Person ID classification subnet:标准的分类网络:Basenet –> Dropout –> softmax(cross-entropy)


Pairwise verification subnet:两个y˜i与y˜j --> 元素间的Subtraction --> Relu --> FC --> 两个节点的Softmax对比损失在本文的模型中效果不是很好,由于使用了Pre-trained GoogleNet,对于非对齐的图片不能在中间加层进行处理,Mahalanobis metric learning Loss测试效率太低。


3.3、提出了关于two-step fine tuning的创新点

1、将softmax层替换成target域的ID数量,固定前面所有参数,进行一步fine tuning(固定base/verification network);


2、待softmax收敛或者达到一定轮数后,接触限制,对整个网络进行fine tuning。


3.4、训练方法

   在监督学习场景下,数据库中的每个样本标定的人员身份。初始化时,提取特征网络使用GoogleNet参数,softmax部分随机初始化。


训练分为两步完成:

   1、固定其他参数,只训练softmax层;

   2、训练所有层参数。

一个特别一点的情况是,用于训练的行人数据库有两个,一个包含N1的较大的库作为辅助,一个包含N2的较小的库为目标。


具体训练分为三步:

   1、固定其他参数,在大库上训练输出为N1N1的softmax层

   2、固定其他参数,在小库上训练输出为N2N2的softmax层

   3、在小库上训练所有层参数


3.5、测试方法

测试过程:

cross image representation(CIR):将图像对送入网络,通过验证网络的fc层以及softmax得到匹配分数;


single image representation(SIR):预先对gallery中的图片计算basenet的输出y,与probe得到的特征计算欧式距离,比CIR快三个数量级。

相关文章
|
4天前
|
人工智能 机器人
LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划
纽约大学Gaoyue Zhou等人提出DINO World Model(DINO-WM),利用预训练视觉特征构建世界模型,实现零样本规划。该方法具备离线训练、测试时行为优化和任务无关性三大特性,通过预测未来补丁特征学习离线行为轨迹。实验表明,DINO-WM在迷宫导航、桌面推动等任务中表现出强大的泛化能力,无需依赖专家演示或奖励建模。论文地址:https://arxiv.org/pdf/2411.04983v1。
32 21
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
KDD 2024:港大黄超团队深度解析大模型在图机器学习领域的未知边界
【8月更文挑战第12天】在KDD 2024会议中,香港大学黄超团队深入探讨了大型语言模型在图机器学习的应用与前景。他们提出将LLMs与图神经网络结合可显著增强图任务性能,并归纳出四种融合模式,为领域发展提供新视角与未来路径。论文详细分析了现有方法的优势与局限,并展望了多模态数据处理等前沿课题。[论文](https://arxiv.org/abs/2405.08011)为图机器学习领域注入了新的活力。
247 61
|
8月前
|
人工智能 机器人 测试技术
论文介绍:零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
【5月更文挑战第4天】SAM-6D框架是零样本6D物体姿态估计的突破,能检测并准确估计新物体姿态,推动具身智能发展。该框架结合实例分割和姿态估计模型,实现RGB-D图像中的物体分割与姿态估计。在BOP基准测试中,SAM-6D超越现有方法,展示出色泛化能力,但还需应对光照变化、遮挡等问题,以提升现实环境中的性能。[论文链接](https://arxiv.org/pdf/2311.15707.pdf)
177 13
|
8月前
|
机器学习/深度学习 人工智能 Java
【AI for Science】量子化学:分子属性预测-第2次打卡-特征工程baseline上分
【AI for Science】量子化学:分子属性预测-第2次打卡-特征工程baseline上分
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
352 1
|
8月前
|
编解码 算法 自动驾驶
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
542 0
|
机器学习/深度学习 数据可视化 自动驾驶
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
206 0
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
|
机器学习/深度学习
神经网络核心原理关键点纪要
神经网络核心原理关键点纪要
105 0
|
数据库 计算机视觉
【Re-ID项目实践】基于表征学习的行人ReID方法实践(二)
【Re-ID项目实践】基于表征学习的行人ReID方法实践(二)
102 0
|
机器学习/深度学习 算法 计算机视觉