2022预计要火的视觉语言理解和生成:一键生成图像标注,视觉问答,代码开源,官方 Demo 可玩

简介: 预计要火、Demo 好玩

1-0

  • 🍊 各位读者小伙伴、元宵节快乐
  • 📆 最近更新:2022年2月11日
  • 🍊 趣学深度学习、AI 前沿、技术专栏、敬请关注
  • 🍊 本文为大家分享一项好玩的,预计2022会火的视觉语言理解和生成任务
  • 🍊 AI 之路、道阻且长、感谢无数前辈巨佬的倾情奉献

📕 一键生成图像标注,视觉问答,官方 Demo 可玩

论文基础信息如下

📕 官方 Demo 试玩效果

视觉语言理解和生成、操作三部曲如下
  1. 上传心仪图像
  2. 点击下方的提交按钮
  3. 等待几秒,右侧即可生成对应的:图像内容描述

1-1

引导式:智能问答

1-3

不懂就问:我要是上传一张自己的图像,它会不会直接猜到我心里在想什么

1-4

论文中的一些官方示例,红色是问题,绿色是回答,人工智能 YYDS 了

1-2

📕 网络结构

多个编码器-解码器

2-1

模型架构

研究者将一个视觉 transformer 用作图像编码器,该编码器将输入图像分解为 patch,然后将这些 patch 编码为序列嵌入,并使用一个额外的[CLS] token 表征全局图像特征。相较于将预训练目标检测器用于视觉特征提取的方法,使用 ViT 在计算上更友好,并且已被最近很多方法所采用。

为了预训练一个具备理解和生成能力的统一模型,研究者提出了多任务模型 MED(mixture of encoder-decoder),它可以执行以下三种功能的任意一种:

  • 单峰编码器
  • 基于图像的文本编码器
  • 基于图像的文本解码器
预训练目标

研究者在预训练过程中共同优化了三个目标,分别是两个基于理解的目标和一个基于生成的目标。每个图像文本对只需要一个前向传播通过计算更重(computational-heavier)的视觉 transformer,需要三个前向传播通过文本 transformer,其中激活不同的功能以计算以下 3 个损失,分别是:

  • 图像文本对比损失(image-text contrastive loss, ITC),激活单峰编码器,旨在通过鼓励正图像文本对(而非负对)具有相似的表征来对齐视觉与文本 transformer 的特征空间;
  • 图像文本匹配损失(image-text matching loss, ITM),激活基于图像的文本编码器,旨在学习捕获视觉与语言之间细粒度对齐的图像文本多模态表征;
  • 语言建模损失(language modeling loss, LM),激活基于图像的文本解码器,旨在给定一张图像时生成文本描述。
为了在利用多任务学习的同时实现高效的预训练,文本编码器和解码器必须共享除自注意力(self-attention, SA)层之外的所有参数。具体地,编码器使用双向自注意力为当前输入 token 构建表征,同时解码器使用因果自注意力预测接下来的 token。
另外,嵌入层、交叉注意力(cross attention, CA)层和 FFN 在编码和解码任务之间功能类似, 因此共享这些层可以提升训练效率并能从多任务学习中获益

📕 实验:数据集指标PK

实验结果

研究者在 PyTorch 中实现模型,并在两个 16-GPU 节点上预训练模型。其中,图像 transformer 源于在 ImageNet 上预训练的 ViT,文本 transformer 源于 BERT_base。

2-2

这个论文的工作感觉还是相当有意思,大家有兴趣,可下载原文进行详细研究,传送门地址如下

📙 博主 AI 领域八大干货专栏、诚不我欺

📙 预祝各位 前途似锦、可摘星辰

🎉 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
❤️ 过去的每一天、想必你也都有努力、祝你披荆斩棘、未来可期

9-9

目录
相关文章
|
6月前
|
机器人 图形学
3D视觉语言动作生成世界模型发布
【2月更文挑战第26天】3D视觉语言动作生成世界模型发布
248 3
3D视觉语言动作生成世界模型发布
|
6月前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
机器学习/深度学习 人工智能 自然语言处理
aiXcoder XL 智能编程大模型发布:自然语言一键生成方法级代码
aiXcoder XL 的出现,为程序员提供了大模型时代的个性化智能编程体验。随着 AI 技术的发展和普及,这或将重新定义编程领域。
737 0
aiXcoder XL 智能编程大模型发布:自然语言一键生成方法级代码
|
3月前
|
人工智能 数据可视化 数据处理
推荐2款免费开源的标注工具,支持大模型对话标注
【LabelLLM】一款开源免费的大模型对话标注平台,专为优化大型语言模型的数据标注过程设计。支持灵活配置与多模态数据(音频、图像、视频),具备全面任务管理和AI辅助标注功能,大幅提升标注效率与准确性。了解更多请前往https://github.com/opendatalab/LabelLLM 【LabelU】一款轻量级开源标注工具,支持图像、视频、音频的高效标注。特色功能包括多功能图像处理、视频和音频分析等,简易灵活,支持多种数据格式输出。了解更多请前往https://github.com/opendatalab/labelU
487 11
|
3月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
643 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
3月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之通用视频生成的输出结果的清晰度低,可以怎么优化
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
34 0
|
5月前
|
机器学习/深度学习 人工智能 算法
基于AI的图像风格转换系统:技术探索与实现
【6月更文挑战第7天】本文探讨了基于AI的图像风格转换系统的原理与实现,采用神经风格迁移技术,利用CNN分离并结合内容与风格。实现过程包括数据准备、构建模型(如VGG19和生成器网络)、定义内容及风格损失函数、训练模型、评估与调优,最终部署应用。尽管面临训练数据需求、计算复杂度和特定场景适应性的挑战,未来的研究将聚焦于技术提升、减少数据依赖及解决伦理隐私问题,以实现更高效智能的风格转换系统。
|
5月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之对于生成式图像卡通化,怎么编写自定义策略
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
机器学习/深度学习 编解码 计算机视觉
【深度学习】探秘PSD:合成到真实去雾框架的实例解析
【深度学习】探秘PSD:合成到真实去雾框架的实例解析
83 0
|
6月前
|
机器学习/深度学习 JSON 自然语言处理
python自动化标注工具+自定义目标P图替换+深度学习大模型(代码+教程+告别手动标注)
python自动化标注工具+自定义目标P图替换+深度学习大模型(代码+教程+告别手动标注)