CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

简介: 卡内基梅隆大学与Meta联合推出VQAScore,一种基于视觉问答模型的新型评估方案,用于衡量生成图像与文本提示的一致性。相比CLIPScore,VQAScore在处理复杂语义时更可靠,在多个基准测试中表现优异。研究团队还发布了GenAI-Bench,包含1,600个组合文本提示,挑战模型的高阶推理能力。VQAScore的创新方法和卓越性能为文生图领域带来新动力,但也存在依赖VQA模型性能和忽视其他质量因素的局限性。

在生成式AI领域,尽管技术进步显著,但全面评估生成内容的质量仍面临诸多挑战。其中,缺乏有效的评估指标和标准化基准是主要障碍之一。CLIPScore作为当前广泛应用的评估方法,通过衡量生成图像与文本提示的一致性来评分,然而在处理涉及对象、属性和关系组合的复杂提示时,其可靠性大打折扣。CLIP的文本编码器常被视为“词袋”模型,无法准确区分如“马在吃草”与“草在吃马”这类语义上截然不同的提示。

为解决这一问题,卡内基梅隆大学(CMU)与Meta联合推出了VQAScore,一种基于视觉问答(VQA)模型的新型评估方案。VQAScore通过计算模型对简单问题“这张图是否展示了‘{文本}’?”回答“是”的概率,来评估图像与文本的一致性。尽管方法看似简单,但使用现成模型计算的VQAScore在多个(8个)图像-文本一致性基准测试中取得了最先进的结果。

研究团队还利用遵循文献最佳实践的内部模型计算VQAScore。例如,他们采用了一种双向图像-问题编码器,使图像嵌入能够根据所提问题进行调整(反之亦然)。内部模型CLIP-FlanT5的表现甚至超越了使用专有GPT-4V的最强基线。有趣的是,尽管仅使用图像进行训练,VQAScore还能将文本与视频和3D模型进行对齐。

VQAScore的引入为研究人员提供了一种使用复杂文本评估文生图生成的新途径,这些文本能够捕捉真实世界提示的组合结构。研究团队还推出了GenAI-Bench,一个包含1,600个组合文本提示的更具挑战性的基准测试,要求模型解析场景、对象、属性、关系以及如比较和逻辑等高阶推理能力。GenAI-Bench还提供了超过15,000个人类对领先图像和视频生成模型(如Stable Diffusion、DALL-E 3和Gen2)的评分。

VQAScore的发布标志着文生图评估领域的重要突破。其基于VQA模型的评估方法不仅在技术上具有创新性,而且在实际应用中也展现出了卓越的性能。通过提供更准确、更可靠的评估指标,VQAScore有望推动文生图技术的发展,并促进相关领域的研究与应用。

然而,VQAScore也存在一些潜在的局限性。首先,其评估结果可能受到VQA模型本身性能的影响。如果VQA模型在特定领域或任务上表现不佳,那么VQAScore的评估结果也可能不准确。其次,VQAScore主要关注图像与文本的一致性,而忽略了其他可能影响生成质量的因素,如图像的美观性、真实性等。因此,在实际应用中,可能需要结合其他评估指标来全面评估生成内容的质量。

尽管存在这些局限性,VQAScore仍然是一项具有重要意义的研究成果。其创新性的评估方法和卓越的性能表现,为文生图领域的发展提供了新的动力和方向。随着技术的不断进步和研究的深入,相信VQAScore将在未来发挥更加重要的作用,推动文生图技术走向新的高度。

值得一提的是,Imagen3作为领先的文生图模型,已经率先采用了VQAScore作为其评估标准。这一举措不仅体现了Imagen3对技术创新的积极态度,也为其他文生图模型提供了借鉴和参考。可以预见,随着VQAScore的广泛应用和不断完善,文生图领域将迎来更加繁荣的发展局面。

ECCV’24论文链接::https://arxiv.org/abs/2404.01291

目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 数据管理
文生图的基石CLIP模型的发展综述
CLIP(Contrastive Language-Image Pre-training)是OpenAI在2021年发布的多模态模型,用于学习文本-图像对的匹配。模型由文本和图像编码器组成,通过对比学习使匹配的输入对在向量空间中靠近,非匹配对远离。预训练后,CLIP被广泛应用于各种任务,如零样本分类和语义搜索。后续研究包括ALIGN、K-LITE、OpenCLIP、MetaCLIP和DFN,它们分别在数据规模、知识增强、性能缩放和数据过滤等方面进行了改进和扩展,促进了多模态AI的发展。
974 0
|
18天前
|
人工智能 监控 自动驾驶
Apollo:Meta 联合斯坦福大学推出专注于视频理解的多模态模型,能够理解长达数小时的视频
Apollo是由Meta和斯坦福大学合作推出的大型多模态模型,专注于视频理解。该模型通过“Scaling Consistency”现象,在较小模型上的设计决策能够有效扩展至大型模型,显著提升了视频理解能力。
60 24
Apollo:Meta 联合斯坦福大学推出专注于视频理解的多模态模型,能够理解长达数小时的视频
|
2月前
|
人工智能 数据处理 异构计算
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架,专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件,有效解决了长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上表现优异,提供了自动化微调数据构建管道,增强了系统的“指令跟随”能力和领域适应性。
65 1
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
|
4月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
83 7
|
4月前
|
自然语言处理
统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
【9月更文挑战第22天】该研究由Meta、Waymo及南加大团队合作完成,提出了一种名为Transfusion的新多模态模型,巧妙融合了语言模型与扩散模型的优点,实现了单一模型下的文本与图像生成和理解。Transfusion通过结合下一个token预测与扩散模型,在混合模态序列上训练单个Transformer,能够无缝处理离散和连续数据。实验表明,该模型在图像生成、文本生成以及图像-文本生成任务上表现出色,超越了DALL-E 2和SDXL等模型。不过,Transfusion仍面临计算成本高和图像理解能力有限等挑战,并且尚未涵盖音频和视频等其他模态。
65 2
|
8月前
|
机器学习/深度学习 人工智能 算法
Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜
【5月更文挑战第16天】MetaCLIP是Meta、纽约大学和华盛顿大学合作提出的新预训练方法,旨在揭秘并复现CLIP模型的高质量数据收集。通过元数据筛选和平衡算法,MetaCLIP能从网络爬取的原始数据中选出优质图像-文本对,减少噪声并增强数据信号。实验显示,MetaCLIP在多个基准测试中超越CLIP,特别是在零样本ImageNet分类任务中取得显著提升。该方法的开源性质促进了社区研究,但面临训练速度慢和需针对特定数据优化的挑战。[[arxiv.org/abs/2309.16671](https://arxiv.org/abs/2309.16671)]
131 2
|
存储 编解码 人工智能
首个完全量化Vision Transformer的方法FQ-ViT | AI大模型落地加速还会远吗?(二)
首个完全量化Vision Transformer的方法FQ-ViT | AI大模型落地加速还会远吗?(二)
909 0
|
机器学习/深度学习 存储 人工智能
首个完全量化Vision Transformer的方法FQ-ViT | AI大模型落地加速还会远吗?(一)
首个完全量化Vision Transformer的方法FQ-ViT | AI大模型落地加速还会远吗?(一)
570 0
|
人工智能 算法 网络架构
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(1)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
207 0
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(2)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
236 0