注意力机制可分为软和硬两类,空间域,通道域

简介: 注意力机制是当前深度学习领域比较流行的一个概念。其模仿人的视觉注意力模式,每次只关注与当前任务最相关的源域信息,使得信息的索取更为高效。

注意力机制中的软和硬



注意力机制是当前深度学习领域比较流行的一个概念。其模仿人的视觉注意力模式,每次只关注与当前任务最相关的源域信息,使得信息的索取更为高效。


注意力机制已在语言模型、图像标注等诸多领域取得了突破进展。


注意力机制可分为软和硬两类:



软性注意力(Soft Attention)机制是指在选择信息的时候,不是从N个信息中只选择1个,而是计算N个输入信息的加权平均,再输入到神经网络中计算。


相对的,硬性注意力(Hard Attention)就是指选择输入序列某一个位置上的信息,比如随机选择一个信息或者选择概率最高的信息。但一般还是用软性注意力机制来处理神经网络的问题。


注意,选取概率最高这一步骤通常是不可微的,因此,硬注意力更难训练。可以借助如强化学习的手段去学习。

分类: NLP


软注意力的注意力域



空间域(Spatial Domain)


image.png

spatial transformer其实就是注意力机制的实现,因为训练出的spatial transformer能够找出图片信息中需要被关注的区域,同时这个transformer又能够具有旋转、缩放变换的功能,这样图片局部的重要信息能够通过变换而被框盒提取出来。


通道域(Channel Domain)


通道域的注意力机制原理很简单,学过信号处理就会很容易理解,信号系统分析里面,任何一个信号其实都可以写成正弦波的线性组合,经过时频变换<注4>之后,时域上连续的正弦波信号就可以用一个频率信号数值代替了。


注4:一般是使用傅里叶变换,也是卷积变化


CNN,AlexNet、VGGNet、GoogleNet、ResNet



深度学习为何被称作深度学习? 就是因为网络层数深。早期(2012~2016年)最为经典的几个CNN,AlexNet、VGGNet、GoogleNet、ResNet,网络层数是在不断加深的

Batch normalization和残差结构的出现解决了以前深层网络容易出现梯度消失、难以训练的问题,使得网络的深度可以加到非常深。


理论上说,较深的CNN不会比较浅的CNN效果差(ResNet中提到),但是边际效应在此处是显然存在的,目前来说轻量化的神经网络的层数一般在几十层左右,而较大的神经网络也很少有超过200层的。


image.png


相关文章
一日一技:使用 asyncio 如何限制协程的并发数
一日一技:使用 asyncio 如何限制协程的并发数
1294 0
一日一技:使用 asyncio 如何限制协程的并发数
|
数据采集 机器学习/深度学习 算法框架/工具
利用Python实现基于图像识别的自动化数据采集系统
本文介绍了如何利用Python编程语言结合图像识别技术,构建一个自动化的数据采集系统。通过分析图像内容,实现对特定信息的提取和识别,并将其转化为结构化数据,从而实现高效、准确地采集需要的信息。本文将详细讨论系统的设计思路、技术实现以及应用场景。
|
数据采集 存储 缓存
SpringBoot与布隆过滤器的完美邂逅:高效防护大规模数据的奇妙结合【实战】
SpringBoot与布隆过滤器的完美邂逅:高效防护大规模数据的奇妙结合【实战】
569 0
|
Kubernetes Devops jenkins
ArgoCD 简明教程
ArgoCD 简明教程
2964 0
ArgoCD 简明教程
|
弹性计算 虚拟化 KVM
Intel Xeon E5-2682 V4 (Broadwell) 2.5 GHz 性能评测 阿里云ECS服务器
Intel Xeon E5-2682 V4 (Broadwell) 2.5 GHz 性能评测 阿里云ECS服务器 阿里云 优 惠 地 址 https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=q3dtcrrv 阿里云ECS服务器是一种弹性可伸缩的云服务器,通过虚拟化平台将服务器集群虚拟为多个性能可配的虚拟机(KVM),对整个集群系统中所有KVM进行监控和管理,并根据实际资源使用情况灵活 分配和调度资源池。
11883 2
|
供应链 物联网 网络安全
跨境电商国外研究现状如何
跨境电商研究涵盖四大领域:发展趋势与模式、影响因素、消费者行为及挑战与问题。研究发现,全球化供应链整合、平台全球化拓展、社交电商兴起和技术应用创新是主要趋势。影响因素包括技术、政策、市场环境和人才。消费者行为受购买决策因素、文化差异和信任问题影响。挑战主要包括关税与税收、物流配送、标准规范缺失及网络安全与隐私保护问题。
|
存储 SQL 关系型数据库
Mysql多表数据需进行联动修改得方案
Mysql多表数据需进行联动修改得方案
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在故障预测与自愈系统中的应用
【6月更文挑战第13天】本文探讨了人工智能技术在现代IT运维领域的应用,着重分析了AI如何通过数据分析和机器学习算法实现故障预测和自动化修复。文章将揭示智能运维系统的工作机制,以及它如何帮助企业减少停机时间,提高服务稳定性,并最终推动业务连续性和增长。
|
JavaScript Java 测试技术
基于Java的企业员工岗前培训管理系统的设计与实现(源码+lw+部署文档+讲解等)
基于Java的企业员工岗前培训管理系统的设计与实现(源码+lw+部署文档+讲解等)
176 1
基于Java的企业员工岗前培训管理系统的设计与实现(源码+lw+部署文档+讲解等)
|
缓存 UED 开发者
CDN的优缺点是什么呢
【4月更文挑战第21天】CDN提升网站访问速度和可用性,通过全球缓存服务器减轻源服务器负载,优化用户体验。然而,其成本较高,技术复杂,存在内容同步问题和对第三方服务的依赖。在使用CDN时需权衡利弊。
1170 4