人工智能|大白话Meshed-Memory Transformer

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: M2Transformer是一种图像描述生成模型,由三部分构成:骨干编码器(Faster R-CNN)提取区域特征;记忆增强编码器(Transformer)对特征进行语义细化;网格解码器(Transformer)将增强特征转化为自然语言描述。结构清晰、层次分明,兼顾准确性与可解释性。(239字)

 整体结构

M2Transformer的整体框架,其实就分三部分,很好记:骨干编码器(Backbone Encoder)、记

忆增强编码器(Memory-Augmented Encoder)和网格解码器(Meshed Decoder)。

其中骨干编码器,用的是Faster R-CNN,它的核心活儿就是“看图片、抓重点”——提取图像里各

个区域的特征,咱们结合“小狗在草地上追蝴蝶”的实例,说清它的输入和输出:输入就是原始的图

像(也就是这张“小狗追蝴蝶”的原图,未经任何处理的像素画面,张量大小通常为[3, H, W],其中

3代表RGB三通道,H、W分别是图像的高度和宽度,比如常见的[3, 640, 640]);输出就是图像的

区域特征张量,简单说就是能识别出图里“小狗”“草地”“蝴蝶”这几个关键区域,还能提取出它们的

基础特征(比如小狗是毛茸茸的、蝴蝶是有翅膀的),把这些特征转换成模型能识别的数值形式,

供下一部分使用,输出张量大小通常为[N, C],N是提取到的区域数量(比如这里识别出3个区域,

N=3),C是特征维度(常用2048维,即C=2048,张量大小为[3, 2048])。

然后是记忆增强编码器和网格解码器,这俩用的都是Transformer结构,相当于模型的“大脑”部分,

咱们分别说它们的输入输出,还是用刚才的图片举例。先看记忆增强编码器:它可以理解成是骨干

编码器的“延伸助手”,输入就是上一步骨干编码器输出的区域特征张量(也就是小狗、草地、蝴蝶

的基础特征数值,张量大小和上一步输出一致,即[N, C] = [3, 2048]);输出就是经过语义增强后

的特征张量——它不会重新提取特征,而是在基础特征上细化,比如区分出“小狗是黄色的拉布拉

多”“草地是绿油油的短草”“蝴蝶是彩色的菜粉蝶”,让这些区域的特征更精准、更有辨识度,相当于

给基础特征“加细节、提精度”,输出张量大小保持不变,仍为[N, C] = [3, 2048],只是张量内的特

征数值更具针对性。

最后是网格解码器,它的核心任务就是“转文字”,输入就是记忆增强编码器输出的、经过语义增强

后的特征张量(也就是带有细节的小狗、草地、蝴蝶特征数值,张量大小为[N, C] = [3, 2048]);

输出就是咱们能看懂的自然文本描述,同时会输出对应的文本张量,文本张量大小通常为[L, V]L

是生成文本的长度(比如“一只黄色的拉布拉多小狗,在绿油油的草地上追逐着一只彩色的蝴蝶”这

句话,L≈20),V是词汇表大小(常用10000左右,即V=10000,张量大小为[20, 10000])——还

是那张小狗追蝴蝶的图,它会结合前面的细化特征,生成一句完整的话,比如“一只黄色的拉布拉

多小狗,在绿油油的草地上追逐着一只彩色的蝴蝶”,这就是它的核心作用,把模型能识别的特征

数值,转换成人类能理解的文字。

image.gif


细节模块

整体描述

骨干编码器提取图像特征


输入:一张普通的 RGB 图片 I(比如你拍的一张小狗照片)

操作:用 BackboneEncoder(比如 Faster R-CNN)处理图片

输出:一堆图像特征 X

  这一步就像给图片 “打标签”,把图片里的物体(小狗、草地、背景)都找出来,提取它们的基础

特征(比如小狗的轮廓、草地的颜色),转换成模型能看懂的数字形式。

记忆增强编码器给特征 “加 buff”


输入:上一步提取的图像特征X

操作:用记忆增强编码器处理,输出 N 层不同的增强特征

网格解码器把特征 “翻译成文字”

 


输入:上一步 N 层增强后的图像特征

操作:用网格解码器处理

输出:生成的文本描述

多头自注意力(MSA)是什么


多头自注意力(MSA)


给 Key 和 Value “加上知识库


输入:图像特征X,以及可学习的记忆槽

操作:把图像本身的特征和记忆槽拼接起来

带记忆槽的多头自注意力计算


输入:图像特征X(用来生成 Query),上一步得到的 Key 和 Value(带记忆槽)

操作:做多头自注意力(MSA),再加上残差连接,最后做层归一化

前馈网络层

  • 输入:上一步自注意力的输出(X')
  • 操作:经过前馈网络(FeedForward),再加上残差连接和层归一化

FeedForward 层的细节


image.gif

记忆增强编码器

记忆增强编码器由多个上述编码层结构按顺序堆叠组成,第 i 层的输出作为第 (i+1) 层的输入,相

当于创建了图像区域之间关系的多级编码,因此 N 个编码层的堆叠将产生 N 个输出作为图像的多

级区域特征。

image.gif

网格解码器

网格解码器的前向流程

网格解码器使用已生成的单词以及记忆增强编码器输出的多级区域特征作为输入,流程如下:


门控权重的计算与核心创新

image.gif

image.gif


目录
相关文章
|
15天前
|
人工智能 自然语言处理 数据挖掘
用ChatGPT和Codex搭建个人AI工作流:从一人部门到开源实践
本文探讨AI时代“一人部门”工作法:用ChatGPT拆解任务、构建知识库,用Codex将流程工具化,结合复盘与沉淀,打造可持续的个人AI工作系统(OPC)。非替代团队,而是以工具+流程+知识,提升单人可复用、可迭代的系统性产出能力。
379 7
|
15天前
|
存储 人工智能 自然语言处理
知识库为谁而建 ?
随着 Agent 的逐步广泛应用,知识库的使用者正在从人变成 Agent。 知识库的设计逻辑、维护方式、甚至存在的意义,都需要重新思考。
364 10
知识库为谁而建 ?
|
15天前
|
机器学习/深度学习 人工智能 网络架构
深度解析:Transformer 的“灵魂”——QKV 变换的物理直觉
本文用图书馆检索等生活隐喻,从物理意义与认知科学角度解析Transformer中QKV设计的精妙本质:解耦查询(q)、键(k)、值(v)三重角色,实现语义分离、避免自注意力“自恋”,模拟人类动态信息路由的认知过程。(239字)
320 13
|
15天前
|
人工智能 数据可视化 测试技术
【教程】阿里云轻量云服务器一键配置OpenClaw
如果你还没有部署自己的 OpenClaw,还可以通过购买腾讯的轻量云服务器,一键秒级部署指南一键秒级部署指南,一键即可在几秒内完成部署。
339 9
|
15天前
|
人工智能 自然语言处理 数据挖掘
AI时代的个人知识管理:从知识库、SOP到OPC一人公司
本文探讨AI时代下的个人知识管理新范式——OPC一人公司:它并非法律意义的单人企业,而是以目标判断为核、AI为辅、知识库为基、SOP为纲、复盘为钥的可复用工作系统。强调经验沉淀、流程自动化与持续优化,助力个体实现部门级任务处理能力。
231 4
|
15天前
|
存储 人工智能 缓存
AI不稳定不是工程Bug,是一场系统性误读——意图共鸣科技行业洞察
过去三年AI狂卷参数与算力,却困于“Demo惊艳、上线翻车”。症结在于误读“AI稳定性”——它非传统软件不宕机,而是大模型在行为分寸、长期记忆、责任可溯、商业可持续四维的结构性缺失。意图共鸣科技正深耕此深水区。
185 6
|
15天前
|
存储 运维 监控
《告别日志排查:OpenClaw如何修复工具错误指南》
传统工具调用系统依赖预先枚举的错误码,面对异构工具的指数级参数组合和隐蔽语义错误时彻底失效,只能靠人工排查海量日志救火。本文深入拆解OpenClaw的革命性设计,它彻底抛弃被动防御思路,构建了语法校验、语义验证、目标对齐三层递进的语义自愈体系。通过异常语义化建模、工具间协同纠错、动态粒度控制和自学习闭环,将异常转化为系统进化的养分,实现95%以上常见异常的自主修复。这套机制为通用智能体的鲁棒性提供了全新技术路径,重新定义了工具调用的可靠性标准。
203 9
|
15天前
|
监控 API Windows
WGCLOUD v3.6.8 正式更新
WGCLOUD v3.6.8发布:修复CPU/内存等指标偶现为0、大屏离线数据不显示等Bug;新增Windows系统服务列表及开放API;优化告警脚本执行与SNMP设备运行时间兼容性。升级方式详见官方图示。
|
15天前
|
人工智能 机器人 芯片
人工智能|YOLOv8实战
本内容为安全帽检测实战项目,基于YOLOv8模型,涵盖Kaggle数据获取、自定义yaml配置、模型训练(yolo_train.py)与测试(yolo_test.py),并提供服务器(FastAPI+Docker)、边缘(Jetson+TensorRT)及国产嵌入式(RK3588+RKNN)三类部署方案,支持工业场景实时智能识别。(239字)
240 1
|
15天前
|
机器学习/深度学习 数据可视化 决策智能
基于神经网络、强化学习、模糊逻辑和小波相结合的混合方法控制欠驱动系统
MATLAB实现展示了如何结合神经网络(NN)、强化学习(RL)、模糊逻辑(FL)和小波变换(WT)来控制欠驱动系统(以倒立摆小车系统为例
135 7

热门文章

最新文章