AI识图驴唇不对马嘴?Google AI:利用交错训练集提升图像描述准确性

简介: 图像描述是计算机视觉、自然语言处理和机器学习的综合问题。近日,谷歌AI提出了一个新的训练集,可以有效提升图像和文本语义匹配的相似性。

如果一张图片可以用一千个单词描述,那么图片中所能被描绘的对象之间便有如此多的细节和关系。我们可以描述狗皮毛的质地,要被追逐的飞盘上的商标,刚刚扔过飞盘的人脸上的表情,等等。

30.jpg

现阶段,包含文本描述及其相应图像的描述的数据集(例如MS-COCO和Flickr30k)已被广泛用于学习对齐的图像和文本表示并建立描述模型。
然而,这些数据集的跨模态关联有限:图像未与其他图像匹配,描述仅与同一张图片的其他描述匹配,存在图像与描述的匹配但未被标记为匹配项,并且没有标签标明何时图像与描述之间是不匹配的。

为了弥补这一评估空白,我们提出了「交叉描述:针对MS-COCO的扩展的模内和模态语义相似性判断」。

纵横交错描述(CxC)数据集使用图像-文本,文本-文本和图像-图像对的语义相似性评级扩展了MS-COCO的开发和测试范围。
评级标准基于「语义文本相似性」,这是一种在短文本对之间广泛存在的语义相关性度量,我们还将其扩展为包括对图像的判断。我们已经发布了CxC的评分以及将CxC与现有MS-COCO数据合并的代码。

创建CxC数据集

CxC数据集扩展了MS-COCO评估拆分,并在模态内和模态之间具有分级的相似性关联。鉴于随机选择的图像和描述匹配的相似性不高,我们提出了一种方法来对项目进行选择,通过人工评级从而产生一些具有较高相似性的新匹配。为了减少所选匹配对用于查找它们的模型的依赖性,我们引入了一种间接采样方案,其中我们使用不同的编码方法对图像和描述进行编码,并计算相同模态项匹配之间的相似度进而生成相似度矩阵。图像使用Graph-RISE嵌入进行编码,而描述则使用两种方法进行编码-基于GloVe嵌入的通用语句编码器(USE)和平均单词袋(BoW)。
由于每个MS-COCO示例都有五个辅助描述,因此我们平均每个辅助描述编码以创建每个示例的单个表征,从而确保所有描述对都可以映射到图像。


31.jpg

上:使用平均辅助描述编码构造的文本相似度矩阵(每个单元格对应一个相似度分数),每个文本条目对应于单个图像。下:数据集中每个图像的图像相似度矩阵。

我们从文本相似度矩阵中选择两个具有较高计算相似度的描述,然后获取它们的每个图像,从而生成一对新的图像,这些图像在外观上不同,但根据描述的相似。
例如,「一只害羞地向侧面看的狗」和「一只黑狗抬起头来享受微风」具有相当高的模型相似性,因此下图中两只狗的对应图像 可以选择图像相似度等级。此步骤也可以从两个具有较高计算相似度的图像开始,以产生一对新的描述。


32.jpg


上:根据描述相似度来选择图像匹配。下:根据描图像的相似度来选择描述匹配。


通过使用现有的图像标题对在模态之间进行链接来做到这一点。例如,如果人对一个描述匹配样本ij的评级为高度相似,我们从样本i中选择图像,并从样本j中选择描述,以获得一个新的用于人工评级的模态内匹配。然后,我们使用具有最高相似性的模态内对进行采样,这可以包括一些具有高度相似性的新匹配。

33.png

不同相似度的语义图像相似性(SIS)和语义图像文本相似性(SITS)示例,其中5为最相似,0为完全不相似。

评估


MS-COCO的匹配是不完整的,因为有时为一幅图像的描述同样适用于另一幅图像,但这些关联并未记录到数据集中。CxC使用新的正向匹配增强了这些现有的检索任务,并且还支持新的图像-图像检索任务。
通过其相似度的评级判断,CxC还可以测量模型和人工评级之间的相关性。不仅如此,CxC的相关性分数还考虑相似度的相对顺序,其中包括低分项(不匹配项)。

我们进行了一系列实验,以展示CxC评级的效用。为此,我们使用基于BERT的文本编码器和使用EfficientNet-B4作为图像编码器构造了三个双编码器(DE)模型:

1. 文本-文本(DE_T2T)模型,双方使用共享的文本编码器。2. 使用上述文本和图像编码器的图像文本模型(DE_I2T),且在文本编码器上方有一个用来匹配图像编码器输出的层。3. 在文本-文本和图像-文本任务的加权组合上训练的多任务模型(DE_I2T + T2T)。

35.jpg

文本-文本(T2T),图像-文本(I2T)和多任务(I2T + T2T)双编码器模型的CxC检索结果

从检索任务的结果可以看出,DE_I2T + T2T(黄色条)在图像文本和文本图像检索任务上的性能优于DE_I2T(红色条)。因此,添加模态内(文本-文本)训练任务有助于提高模态间(图像-文本,文本-图像)性能。


36.jpg

相同模型的CxC相关结果

对于关联任务,DE_I2T在SIS上表现最好,而DE_I2T + T2T在总体上是最好的。相关分数还显示DE_I2T仅在图像上表现良好:它具有最高的SIS,但具有更差的STS。
添加文本-文本损失到DE_I2T训练中(DE_I2T + T2T),可以使整体性能更加均衡。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
151 2
|
2月前
|
人工智能 开发者
MidJourney 替代品:为什么 FLUX.1 是终极 AI 图像生成工具
MidJourney 是目前流行的 AI 驱动图像生成工具,以其艺术风格和易用性闻名。然而,随着技术进步,其他模型如 FLUX.1、DALL·E 3 和 Stable Diffusion 3 也崭露头角,提供了更多定制选项和高质量输出。其中,FLUX.1 以其开源性质、卓越图像质量和开发者友好性脱颖而出,成为 MidJourney 的有力替代品。选择合适的工具应基于具体需求,FLUX.1 在灵活性和高性能方面表现优异。
|
2月前
|
人工智能 Serverless
AI助理精准匹配------助力快速搭建Stable Difussion图像生成应用
【10月更文挑战第7天】过去在阿里云社区搭建Stable Diffusion图像生成应用需查阅在线实验室或官方文档,耗时且不便。现阿里云AI助理提供精准匹配服务,直接在首页询问AI助理即可获取详细部署步骤,简化了操作流程,提高了效率。用户可按AI助理提供的步骤快速完成应用创建、参数设置、应用部署及资源释放等操作,轻松体验Stable Diffusion图像生成功能。
|
3月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
10天前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
23 0
|
1月前
|
人工智能 小程序
【一步步开发AI运动小程序】五、帧图像人体识别
随着AI技术的发展,阿里体育等公司推出的AI运动APP,如“乐动力”和“天天跳绳”,使云上运动会、线上健身等概念广受欢迎。本文将引导您从零开始开发一个AI运动小程序,使用“云智AI运动识别小程序插件”。文章分为四部分:初始化人体识别功能、调用人体识别功能、人体识别结果处理以及识别结果旋转矫正。下篇将继续介绍人体骨骼图绘制。
|
2月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
157 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
2月前
|
人工智能 Serverless
AI助理精准匹配,为您推荐方案——如何添加一个Stable Difussion图像生成应用
介绍了一种利用AI助手快速获取并搭建Stable Diffusion图像生成应用的方法。用户只需在阿里云官网向AI助手提出需求,即可获得详细的实施方案。随后,按照AI助手提供的方案,通过函数计算部署应用,并进行测试。此过程显著提升了开发效率。
806 2
AI助理精准匹配,为您推荐方案——如何添加一个Stable Difussion图像生成应用
|
2月前
|
人工智能
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
|
2月前
|
机器学习/深度学习 人工智能 算法
AI辅助医疗影像:提高诊断准确性
【10月更文挑战第2天】医学影像技术是现代医学诊断的关键手段,但传统方法依赖医生经验,存在误诊风险。AI辅助医疗影像通过自动化图像识别、疾病预测和辅助诊断决策,显著提升了诊断准确性与效率。利用深度学习、数据增强及迁移学习等技术,AI不仅能快速分析影像,还能提供个性化诊疗建议,并实时监测疾病变化。尽管面临数据质量、算法可解释性和伦理法律等挑战,但多模态影像分析、跨学科合作及VR融合等趋势将推动AI在医疗影像领域的广泛应用,助力实现更精准、高效的医疗服务。

热门文章

最新文章