在生成式AI领域,尽管技术进步显著,但全面评估生成内容的质量仍面临诸多挑战。其中,缺乏有效的评估指标和标准化基准是主要障碍之一。CLIPScore作为当前广泛应用的评估方法,通过衡量生成图像与文本提示的一致性来评分,然而在处理涉及对象、属性和关系组合的复杂提示时,其可靠性大打折扣。CLIP的文本编码器常被视为“词袋”模型,无法准确区分如“马在吃草”与“草在吃马”这类语义上截然不同的提示。
为解决这一问题,卡内基梅隆大学(CMU)与Meta联合推出了VQAScore,一种基于视觉问答(VQA)模型的新型评估方案。VQAScore通过计算模型对简单问题“这张图是否展示了‘{文本}’?”回答“是”的概率,来评估图像与文本的一致性。尽管方法看似简单,但使用现成模型计算的VQAScore在多个(8个)图像-文本一致性基准测试中取得了最先进的结果。
研究团队还利用遵循文献最佳实践的内部模型计算VQAScore。例如,他们采用了一种双向图像-问题编码器,使图像嵌入能够根据所提问题进行调整(反之亦然)。内部模型CLIP-FlanT5的表现甚至超越了使用专有GPT-4V的最强基线。有趣的是,尽管仅使用图像进行训练,VQAScore还能将文本与视频和3D模型进行对齐。
VQAScore的引入为研究人员提供了一种使用复杂文本评估文生图生成的新途径,这些文本能够捕捉真实世界提示的组合结构。研究团队还推出了GenAI-Bench,一个包含1,600个组合文本提示的更具挑战性的基准测试,要求模型解析场景、对象、属性、关系以及如比较和逻辑等高阶推理能力。GenAI-Bench还提供了超过15,000个人类对领先图像和视频生成模型(如Stable Diffusion、DALL-E 3和Gen2)的评分。
VQAScore的发布标志着文生图评估领域的重要突破。其基于VQA模型的评估方法不仅在技术上具有创新性,而且在实际应用中也展现出了卓越的性能。通过提供更准确、更可靠的评估指标,VQAScore有望推动文生图技术的发展,并促进相关领域的研究与应用。
然而,VQAScore也存在一些潜在的局限性。首先,其评估结果可能受到VQA模型本身性能的影响。如果VQA模型在特定领域或任务上表现不佳,那么VQAScore的评估结果也可能不准确。其次,VQAScore主要关注图像与文本的一致性,而忽略了其他可能影响生成质量的因素,如图像的美观性、真实性等。因此,在实际应用中,可能需要结合其他评估指标来全面评估生成内容的质量。
尽管存在这些局限性,VQAScore仍然是一项具有重要意义的研究成果。其创新性的评估方法和卓越的性能表现,为文生图领域的发展提供了新的动力和方向。随着技术的不断进步和研究的深入,相信VQAScore将在未来发挥更加重要的作用,推动文生图技术走向新的高度。
值得一提的是,Imagen3作为领先的文生图模型,已经率先采用了VQAScore作为其评估标准。这一举措不仅体现了Imagen3对技术创新的积极态度,也为其他文生图模型提供了借鉴和参考。可以预见,随着VQAScore的广泛应用和不断完善,文生图领域将迎来更加繁荣的发展局面。
ECCV’24论文链接::https://arxiv.org/abs/2404.01291