8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare-阿里云开发者社区

8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare

2024-05-11 32

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第10天】TextSquare，由字节跳动、华东师大和华中科技大学联合研发，是新型的文本中心视觉问答模型，借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型，如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解，减少幻觉现象，平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)

在人工智能领域，多模态大模型的发展一直备受关注。最近，由字节跳动、华东师范大学和华中科技大学联合研究团队提出的TextSquare模型，在文字多模态视觉问答（VQA）任务上取得了令人瞩目的成绩。

TextSquare模型是一种基于大规模语言模型的文本中心视觉问答模型。它通过使用一种名为Square-10M的大规模、高质量指令微调数据集，实现了在视觉问答任务上的突破。该数据集的构建过程包括自我提问、回答、推理和评估四个步骤，利用了闭源的大规模语言模型进行数据生成。

研究团队在OCRBench等10个文本中心的视觉问答基准上对TextSquare模型进行了评估。结果显示，TextSquare模型在6个基准上的性能超过了当前最先进的模型，如GPT4V和Gemini。这表明TextSquare模型在处理文本中心的视觉问答任务上具有出色的能力。

此外，研究团队还发现，视觉问答推理数据在提供特定问题的全面上下文洞察方面起着至关重要的作用。这些数据不仅可以提高模型的准确性，还可以显著减少模型的幻觉现象。在四个通用的视觉问答和幻觉评估数据集上，TextSquare模型的平均得分为75.1%，超过了先前最先进的模型。

然而，尽管TextSquare模型在视觉问答任务上取得了显著的进展，但仍存在一些挑战和局限性。首先，尽管TextSquare模型在指令微调数据集上进行了大规模的训练，但在处理一些复杂的、不常见的问题时，仍可能存在性能下降的情况。其次，由于视觉问答任务的复杂性和多样性，模型的泛化能力仍然是一个需要进一步研究的问题。

论文地址：https://arxiv.org/abs/2404.12803

8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare

热门文章

最新文章

相关课程

相关电子书

相关实验场景