CVPR2017:深度纹理编码网络 (Deep TEN: Texture Encoding Network)

简介:

这是一篇CVPR2017的投稿 (ArXiv的链接:https://arxiv.org/pdf/1612.02844v1.pdf),已被CVPR2017接收。在这里给大家介绍一下这部分的工作,不像写论文那样用词严谨,这里简单介绍一下核心思想,方便大家阅读。(我个人是来到美国之后才接触科研,文中学术名词的汉语表述有不当之处还请谅解。)

我们提出了一个新的深度学习模型,这个模型推广了传统的字典学习 (dictionary learning) 和残差编码 (Residual Encoders),比如 VLAD 和 Fisher Vector。提出的编码层 (Encoding Layer) 和已有的深度学习结构兼容,实现了端对端的材料识别 (End-to-end),并且取得了不错的效果。


这个方法主要是受到传统方法的启发:对于输入的图片,我们通常先提取图像特征(比如SIFT 或者是 filterbank responses),之后一个字典可以通过非监督式的聚类得到,这样我们可以对已有的图片特征进行编码(材料识别中通常使用一些无序的编码器,比如BoWs,VLAD),并使用分类器进行分类。传统方法有以下两个特点:1. 输入图片可以为任意大小,编码器可以转化为一个固定长度的表达。2. 特征本身是通用的(domain-independent),字典和编码表达通常挟带了域信息(domain-specific information)。



受到传统方法的启发(左图),Cimpoiet. al. CVPR 2015 使用了预训练的神经网络的卷积层提取了深度特征,并且使用了 Fisher Vector 编码器,刷新了当时的state-of-the-art(中图)。但是这种方法仍然有局限性,因为它包含了许多分步的优化,这样特征提取(卷积层),字典学习和编码器不能够从标识的数据(labeled data)中得到进一步优化。理想的方法是如右图,将整个字典学习和编码整合到一个CNN网络层中,使它与已有的深度学习体系兼容,这样以来就实现了端对端的学习优化。


方法部分有一些tricky,我们主要是提出了个数学模型 (Residual Encoding Model),推广了已有的编码器 (VLAD, Fisher Vector),并且使得整个系统是可微分的,这样我们就可以像已有的深度学习层一样,从loss function中学习到参数。也就是说它实现了监督式的字典学习(supervised dictionary learning)。这个模型有很多特性,它使得CNN网络可以接受任意大小的图片,并且因为字典学习和表达容易携带Domain信息,这样学习到的深度特征就更加容易应用于其他domain。


这个模型有很多可以应用的地方,除了文中提到的材料/纹理识别以外,因为它推广了VLAD和Fisher Vector,那么可以期待它在Robust Recognition中的应用前景(比如场景识别scene understanding),还有图像检索(image retrieval) 等等。欢迎大家多关注我的工作,而且我们提供基于Torch的代码(https://github.com/zhanghang1989/Deep-Encoding)。我个人现在在做visualize 和 inverse 这个编码网络,欢迎多交流 (RemoveThisifYouAreHuman~zhang.hang@rutgers.edu)。


这篇文章实现了之前很多paper想要努力却未能实现的目标——将Fisher Vector和CNN一起训练,包括 VLAD-CNN (Gong et al. 2014), FV-CNN (Cimpoi CVPR 2015), Bilinear CNN (Lin ICCV 2015) and NetVLAD (CVPR 2016) 甚至早期的 Deep Fisher Network (Simonyan et al. 2013)。很多人不了解本文和NetVLAD的区别,其实NetVLAD回避了反向传播梯度推倒的困难,直接将问题过于简化为CNN已有的模型,这一简化其实改变了残差编码(residual encoder)的特性。


原文发布时间为:2017-06-17

本文作者:张航

本文来自云栖社区合作伙伴极市网,了解相关信息可以关注极市网。

相关文章
|
10月前
|
XML JSON JavaScript
从解决跨域CSOR衍生知识 Network 网络请求深度解析:从快递系统到请求王国-优雅草卓伊凡
从解决跨域CSOR衍生知识 Network 网络请求深度解析:从快递系统到请求王国-优雅草卓伊凡
225 0
从解决跨域CSOR衍生知识 Network 网络请求深度解析:从快递系统到请求王国-优雅草卓伊凡
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
765 62
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
|
机器学习/深度学习 搜索推荐 PyTorch
基于昇腾用PyTorch实现CTR模型DIN(Deep interest Netwok)网络
本文详细讲解了如何在昇腾平台上使用PyTorch训练推荐系统中的经典模型DIN(Deep Interest Network)。主要内容包括:DIN网络的创新点与架构剖析、Activation Unit和Attention模块的实现、Amazon-book数据集的介绍与预处理、模型训练过程定义及性能评估。通过实战演示,利用Amazon-book数据集训练DIN模型,最终评估其点击率预测性能。文中还提供了代码示例,帮助读者更好地理解每个步骤的实现细节。
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
634 9
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
|
机器学习/深度学习 Serverless 索引
分类网络中one-hot编码的作用
在分类任务中,使用神经网络时,通常需要将类别标签转换为一种合适的输入格式。这时候,one-hot编码(one-hot encoding)是一种常见且有效的方法。one-hot编码将类别标签表示为向量形式,其中只有一个元素为1,其他元素为0。
723 2
|
机器学习/深度学习 Python
深度学习笔记(九):神经网络剪枝(Neural Network Pruning)详细介绍
神经网络剪枝是一种通过移除不重要的权重来减小模型大小并提高效率的技术,同时尽量保持模型性能。
985 0
深度学习笔记(九):神经网络剪枝(Neural Network Pruning)详细介绍
|
XML JSON 安全
Base64编码原理与在网络传输中的应用
Base64编码原理与在网络传输中的应用
|
缓存 算法
基于机会网络编码(COPE)的卫星网络路由算法matlab仿真
**摘要:** 该程序实现了一个基于机会网络编码(COPE)的卫星网络路由算法,旨在提升无线网络的传输效率和吞吐量。在MATLAB2022a中测试,结果显示了不同数据流个数下的网络吞吐量。算法通过Dijkstra函数寻找路径,计算编码机会(Nab和Nx),并根据编码机会减少传输次数。当有编码机会时,中间节点执行编码和解码操作,优化传输路径。结果以图表形式展示,显示数据流与吞吐量的关系,并保存为`R0.mat`。COPE算法预测和利用编码机会,适应卫星网络的动态特性,提高数据传输的可靠性和效率。
|
Docker 容器
docker network inspect 查询出来的网络的创建命令是什么
【6月更文挑战第17天】docker network inspect 查询出来的网络的创建命令是什么
329 1
|
存储 Linux 网络安全
【Azure 存储服务】如何把开启NFS 3.0协议的Azure Blob挂载在Linux VM中呢?(NFS: Network File System 网络文件系统)
【Azure 存储服务】如何把开启NFS 3.0协议的Azure Blob挂载在Linux VM中呢?(NFS: Network File System 网络文件系统)
275 0

热门文章

最新文章